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本 书 作 者 Alfred V. Aho, Ravi Sethi 和 Jeffrey D.UlIman 是 世界 著名 的 计算 机 
科学 家 ， 他 们 在 计算 机 科学 理论 、 数 据 库 等 很 多 领域 都 做 出 了 杰出 贡献 。 本 书 
是 编译 领域 无 可 替代 的 经 典 著 作 ， 被 广大 计算 机 专业 人 士 誉 为 " 龙 书 "。 本 书 一 
直 被 世界 各 地 的 著名 高 等 院 校 和 科研 机 构 (如 贝尔 实验 室 、 哥 伦比 亚 大 学 、 普 
林 斯 顿 大 学 和 斯 坦 福 大 学 等 ) 广泛 用 作 本 科 生 和 研究 生 编 译 原理 与 技术 课程 的 
教材 ， 本 书 对 我 国 计 算 机 教育 界 也 具有 重大 影响 。 

书 中 深入 讨论 了 编译 器 设计 的 重要 主题 ， 包 括 词法 分 析 、 语 法 分 析 、 语 法 制 
导 分 析 、 类 型 检查 、 运 行 环境 、 中 间 代 码 生 成 、 代 码 生 成 、 代 码 优化 等 ， 并 在 
最 后 两 章 中 讨论 了 实现 编译 器 的 一 些 编程 问题 和 几 个 编译 器 实例 ， 而 且 每 章 都 
提供 了 大 量 的 练习 和 参考 文献 。 

本 书 可 以 作为 高 等 院 校 计算 机 专业 本 科 生 和 研究 生 编译 原理 与 技术 课程 的 
教材 ， 也 可 以 作为 计算 机 技术 人 员 必 读 的 专业 参考 书 之 一 。 


简 | 学 研究 院 副 院 长 、 计 算 机 科学 研究 中 心 主 任 。 在 贝尔 实验 室 主 要 负责 计算 科学 和 软件 研究 f 
介 | 工作 ， 已 经 出 版 多 本 算法 、 数 据 结构 、 编 译 器 、 数 据 库 系 统 及 计算 机 科学 基础 等 方面 的 经 A 
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典 著作 


Ravi Sethi 于 普林斯顿 大 学 获得 博士 学 位 。 他 1976 年 进入 贝尔 实验 室 ， 在 贝 
| 尔 实验 室 从 事 研究 工作 24 年 之 久 ， 并 担任 过 贝尔 实验 室 通信 科学 研究 部 高 级 副 总 裁 。Sethi 
| 博士 现任 Avaya 实验 室 总 裁 。 他 还 是 《程序 设计 语言 ， 概 念 和 结构 》 一 书 的 作者 








J effrey D. Ullman 斯 坦 福 大 学 计算 机 科学 系 教 授 ， 他 的 研究 方向 Db 
包括 数据 库 理论 、 数 据 库 集成 、 数 据 挖 气 和 利用 信息 基础 设施 教学 等 。 他 著 有 《数据 库 系 和 
| 统 概念 》 等 多 本 重要 的 数据 库 教 材 。 


ISBN 7-111-12349-2 YW 网 上 购书 : www.china-pub.com 
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本 书 深 入 讨论 了 编译 器 设计 的 重要 主题 ， 包 括 词法 分 析 、 语 法 分 析 、 语 法 制导 分 析 、 
类 型 检查 、 运 行 环境 、 中 间 代 码 生 成 、 代 码 生 成 、 代 码 优化 等 ， 并 在 最 后 两 章 中 讨论 了 实现 
编译 器 的 一 些 编程 问题 和 几 个 编译 器 实例 ， 每 章 都 提供 了 大 量 的 练习 和 参考 文献 。 本 书 从 介 
绍 编译 的 原理 性 概念 开始 ， 然 后 通过 构建 一 个 简单 的 一 遍 编 译 器 来 逐一 解释 这 些 概 念 。 

本 书 是 编译 原理 课程 的 经 典 教材 ， 作 者 曾 多 次 使 用 本 书 的 内 容 在 贝尔 实验 室 、 哥 伦比 
亚 大 学 、 普 林 斯 顿 大 学 和 斯 坦 福 大 学 向 本 科 生 和 研究 生 讲授 初等 及 高 等 编译 课程 。 

Authorized translation from the English language edition entitled Compilers: Principles, 
Techniques, and Tools by Alfred V. Aho, Ravi Sethi, and Jeffrey D. Ullman, published by 
Pearson Education, Inc, publishing as Addison-Wesley , Copyright © 1986 by Bell Telephone 
Laboratories, Incorporated. 

All rights reserved. No part of this book may be reproduced or transmitted in any form or 
by any means, electronic or mechanic, including phofocopying, recording, or by any information 
storage retrieval system, without permission of Pearson Education, Inc. 

Chinese simplified language edition published by China Machine Press. 

Copyright © 2003 by China Machine Press. 


本 书 中 文 简体 字 版 由 美国 Pearson Education 培 生 教育 出 版 集团 授权 机 械 工业 出 版 社 独 
家 出 版 。 未 经 出 版 者 书面 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 


本 书 版 权 登 记号 ; 图 字 : 01-2001-2194 
图 书 在 版 编目 (CIP) 数据 


编译 原理 / (F) PÆ (Aho, A. V.) 等 著 ; 李 建 中 等 译 . -北京 : 机 械 工业 出 版 社 ，2003.8 
(计算 机 科学 从 书 ) 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ;也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仪 学 
划 了 研究 的 范畴 ， 还 揭 钳 了 学 术 的 源 变 ， 嗓 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 19938 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 以 选 、 移 译 国外 优秀 教材 上 。 经 过 儿 年 的 不 筝 努力， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum Stroustrup, Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 处 书 ” 为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 上 记 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 囊 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 和 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 A 
进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 入 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 从 书 ” 之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 遂行 的 教学 辅导 书 “Schaum’s Outlines” 系 列 组 成 
“全 美 经 典 学 习 指 导 系列 ”。 为 了 保证 这 三 套 从 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公 司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科 技 大 学 、 哈 尔 演 工业 大 学 、 西 安 交通 大 学 FH 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 潮 
北 工学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I T., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数 学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课 程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 误 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 入室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzedu@hzbook.com 

联系 电话 : ( 010 ) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 


专家 指导 委员 会 


( 按 姓氏 笔画 顺序 ) 
珊 EE 史 忠 植 史 美 林 
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#2 旭  ” 程 时 端 ” 谢 希 仁 


译 者 & 


编译 器 产生 于 20 世 纪 60 年 代 ,， 在 计算 机 科学 技术 的 发 展 历史 中 发 挥 了 巨大 作用 ， 是 开发 
计算 机 应 用 系统 不 可 缺少 的 重要 工具 。 编 译 器 的 原理 和 技术 具有 十 分 普遍 的 意义 。 在 每 一 个 
计算 机 科学 技术 工作 者 的 职业 生涯 中 ， 这 些 原 理 和 技术 都 被 反复 用 到 。 编 译 器 的 编写 涉及 到 
程序 设计 语言 、 计 算 机 体系 结构 、 语 言 理论 、 算 法 和 软件 工程 等 学 科 ， 是 计算 机 科学 技术 的 
重要 基础 。 作 为 计算 机 科学 技术 学 科 的 专业 基础 课 ， 编 译 器 原理 和 技术 是 计算 机 科学 技术 专 
业 学 生 的 必修 课程 。 本 书 是 一 部 优秀 的 编译 器 原理 和 技术 教材 。 

本 书 是 Alfred V. Aho 和 Jeffrey D. Ullman 所 著 的 《Principles of Compiler Design》 一 书 的 后 
Bm. RAPER Alfred V. Aho 是 AT&T 贝尔 实验 室 计算 机 原理 研究 部 负责 人 ，Jeffrey D. 
Ullman 是 斯 坦 福 大 学 计算 机 科学 系 教授 ，Ravi Sethi 是 AT&T 贝尔 实验 室 研究 人 员 。Alfred V. 
Aho 和 Jeffrey D. Ullman 是 世界 著名 的 计算 机 科学 家 ， 他 们 在 计算 机 科学 理论 、 数 据 库 等 很 多 
领域 都 做 出 了 杰出 贡献 。 他 们 的 很 多 著作 都 被 国际 公认 为 是 权威 性 著作 ， 深 受 读者 的 喜爱 。 本 
书 的 英文 版 出 版 于 20 世 纪 80 年 代 ， 是 一 部 著名 的 编译 器 原理 与 技术 方面 的 教材 ， 一 直 被 国际 著 
名 高 等 院 校 特别 是 美国 著名 大 学 作为 编译 器 原理 与 技术 的 教科 书 。 这 部 著作 对 我 国 计 算 机 界 也 
具有 重大 影响 。 机 械 出 版 社 独 具 慧 眼 ， 决 定 将 这 部 著作 翻译 成 中 文 在 国内 出 版 ， 这 必 将 对 我 国 
计算 机 科学 技术 的 编译 原理 教学 工作 产生 积极 的 推动 作用 。 有 幸 承担 该 书 的 翻译 工作 ， 我 们 感 
到 十 分 荣幸 。 

本 书 是 编译 器 原理 与 技术 的 基本 教程 ， 旨 在 介绍 编译 器 的 一 般 原理 ， 解 决 人 们 在 编译 器 设 
计 中 过 到 的 普遍 问题 。 本 书 在 系统 地 介绍 编译 器 的 一 般 原理 的 同时 ， 特 别 注重 编译 原理 和 技 
术 的 实际 应 用 ， 给 出 了 许多 启示 ， 并 配置 了 大 量 的 例题 和 习题 。 本 书 的 内 容 适 用 于 所 有 源 语 
言 和 目标 机 器 。 本 书 介绍 的 概念 和 技术 不 仅 适 用 于 编译 器 的 设计 ， 也 适用 于 一 般 的 软件 设计 。 
显然 ， 本 书 在 目前 只 有 少数 人 涉及 编译 器 的 构造 和 维护 的 情况 下 仍然 具有 重要 的 意义 和 价值 。 

本 书 共 有 十 二 章 和 一 个 附录 。 第 1 章 介 绍 编译 器 的 基本 结构 ;第 2 章 描 述 了 一 个 变 中 缀 表 
达 式 为 后 缀 表达 式 的 翻译 器 ; 第 3 章 介 绍 了 词法 分 析 器 、 正 规 表达 式 、 有 穷 自 动机 以 及 词法 分 
析 器 的 自动 生成 工具 ; 第 4 章 详 述 常用 的 语法 分 析 技术 ; 第 5 章 阐 述 了 语法 制导 翻译 的 基本 概 
念 ; 第 6 章 介 绍 了 实现 静态 语义 检查 的 基本 思想 ; 第 7 章 讨 论 了 程序 运行 环境 的 存储 组 织 问 
题 ; 第 8 章 首先 介绍 了 中 间 语 言 的 概念 ， 然 后 讨论 如 何 把 一 般 的 程序 设计 语言 翻译 成 中 间 代 码 
的 问题 ; 第 9 章 介绍 目标 代码 生成 技术 和 代码 生成 器 的 自动 生成 方法 ; 第 10 章 全 面 介绍 了 代码 
优化 方法 ; 第 11 章 讨论 了 实现 编译 器 的 一 些 编程 问题 ; 第 12 章 提供 了 几 个 编译 器 实例 ; 附录 A 
描述 了 一 种 简单 的 语言 ， 学 生 可 以 把 它 作为 源 语言 ， 构 造 一 个 编译 器 。 

本 书 可 以 作为 高 等 院 校 计算 机 专业 本 科 生 和 研究 生 编 译 原理 与 技术 课程 的 教材 ， 也 可 以 
作为 计算 机 软件 工作 者 的 技术 参考 书 。 

限于 译 者 水 平 ， 译 文中 疏漏 和 错误 难免 ,欢迎 批评 指正 。 


Ft, FE 
2003 年 7 月 1 日 
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本 书 是 Alfred VAho 和 Jeffrey D.Ullman 所 著 的 《Principles of Compiler Design) —P W 
后 续 版 本 。 与 后 者 类 似 ， 本 书 也 是 编译 器 设计 基础 课程 的 教材 。 本 书 的 重点 是 解决 人 们 在 设 
计 语 言 翻译 器 时 遇 到 的 普遍 问题 ， 而 不 论 源 和 目标 机 器 是 什么 。 

本 书 介绍 的 概念 和 技术 不 仅 适用 于 编译 器 的 设计 ， 也 适用 于 一 般 的 软件 设计 。 例 如 ， 建 
立 词法 分 析 器 的 串 匹配 技术 已 用 于 文本 编辑 器 、 信 息 检索 系统 和 模式 识别 器 ; 上 下 文 无 关 文 
法 和 语法 制导 定义 等 概念 已 用 于 设计 许多 诸如 本 书 产 生 的 排版 、 绘 图 系统 这 样 的 小 语言 ; 代 
码 优化 技术 已 用 于 程序 验证 器 和 从 非 结 构 化 程序 产生 结构 化 程序 的 程序 检验 器 之 中 。 显 然 ， 
本 书 在 目前 只 有 少数 人 涉及 编译 器 的 构造 和 维护 的 情况 下 仍然 具有 重要 的 意义 和 价值 。 


本 书 的 使 用 方法 


本 书 深入 地 讨论 了 编译 器 设计 的 重要 主题 。 

第 1 章 介绍 编译 器 的 基本 结构 ， 是 阅读 本 书 其 余部 分 的 基础 。 

第 2 章 描述 了 一 个 变 中 级 表 达 式 为 后 缀 表达 式 的 翻译 器 。 这 个 翻译 器 使 用 本 书 介 绍 的 一 些 
基本 技术 构建 。 后 面 的 一 些 章节 逐渐 地 扩展 了 第 2 章 介绍 的 内 容 。 

第 3 章 介绍 了 词法 分 析 器 、 正 规 表达 式 、 有 穷 状态 机 以 及 词法 分 析 器 的 生成 器 工具 。 本 章 
的 内 容 已 经 被 广泛 地 用 于 文本 处 理 。 

第 4 章 深入 介绍 了 常用 的 语法 分 析 技 术 。 本 书 讨论 的 语法 分 析 技 术 比 较 广 泛 ， 从 适用 于 手 
工 实现 的 递归 下 降 技术 到 用 于 语法 分 析 器 生成 器 的 计算 更 密集 的 LR 技术 。 

第 5 章 介绍 了 语法 制导 翻译 的 主要 概念 。 本 章 的 内 容 将 被 用 于 本 书 中 说 明和 实现 翻译 的 其 
余 各 章 。 

第 6 章 介绍 了 实现 静态 语义 检查 的 主要 思想 , 详尽 讨论 了 类 型 检查 与 合 一 问题 。 

第 7 章 讨论 了 用 于 支持 程序 运行 环境 的 存储 组 织 问题 。 

第 8 章 首先 介绍 了 中 间 语 言 的 概念 ， 然 后 讨论 如 何 把 一 般 的 程序 设计 语言 结构 翻译 成 中 间 
代码 的 问题 。 

第 9 章 介绍 目标 代码 生成 技术 , 包括 简单 的 代码 生成 方法 以 及 产生 表达 式 代码 的 优化 方法 。 
本 章 也 讨论 了 罕 孔 优化 方法 和 代码 生成 器 的 生成 器 。 

第 10 章 全 面 介绍 了 代码 优化 ,详细 讨论 了 各 种 数据 流 分 析 方 法 和 几 种 主要 的 全 局 优化 方 
法 。 

第 11 章 讨论 实现 编译 器 的 一 些 编程 问题 。 软 件 工程 和 软件 测试 在 构造 编译 器 的 过 程 中 是 
非常 重要 的 。 

第 12 章 提供 几 个 编译 器 实例 。 这 些 编译 器 都 使 用 了 本 书 介绍 的 技术 。 

附录 A 描述 了 一 种 简单 的 语言 。 这 种 语言 是 Pascal 语 言 的 “ 子 集 ”， 它 可 以 用 做 实现 项 目 
的 基础 。 

本 书 作 者 曾 使 用 本 书 的 内 容 多 次 在 贝尔 实验 室 、 哥 伦比 亚 大 学 、 普 林 斯 顿 大 学 和 斯 坦 福 
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大 学 为 本 科 生 和 研究 生 讲授 初等 和 高 等 编译 课程 。 
初等 编译 课程 可 以 由 本 书 以 下 章节 构成 : 


简介 第 1 章 、2.1~2.5 节 
词法 分 析 2.6 节 、3.1~3.4 节 
符号 表 2.7 节 、7.6 节 
语法 分 析 2.4 节 、4.1~4.4 节 
语法 制导 翻译 2.5 节 、5.1~5.5 节 
类 型 检查 6.1~6.2 节 

运行 环境 的 组 织 7.1~7.3 节 

中 间 代 码 的 生成 8.1~8.3 节 

代码 生成 9.1~9.4 节 

代码 优化 10.1~10.2 节 


第 2 章 描述 了 编程 项 目 所 需 的 信息 。 

以 编译 器 构造 工具 为 核心 的 课程 可 以 包括 3.5 节 的 词法 分 析 器 的 生成 器 、4.8 节 和 4.9 节 的 语 
法 分 析 器 的 生成 器 、9.12 节 的 代码 生成 器 的 生成 器 以 及 第 11 章 中 有 关 编 译 器 构造 技术 的 内 容 。 

高 等 编译 课程 可 以 由 本 书 的 以 下 内 容 组 成 : 第 3 章 和 第 4 章 介绍 的 词法 分 析 器 的 生成 器 和 
语法 分 析 器 的 生成 器 中 使 用 的 算法 、 第 6 章 介 绍 的 有 关 类 型 等 价 、 重 载 、 多 态 和 合 一 的 内 容 、 
第 7 章 介绍 的 程序 运行 环境 的 存储 组 织 、 第 9 章 介 绍 的 模式 制导 的 代码 生成 方法 、 第 10 章 介绍 
的 代码 优化 。 
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第 1 章 编译 简介 


编写 编译 器 的 原理 和 技术 具有 十 分 普遍 的 意义 ， 以 致 于 在 每 一 个 计算 机 科学 家 的 研究 生涯 
中 ， 本 书 中 的 这 些 原理 和 技术 都 会 反复 用 到 。 编 译 器 的 编写 涉及 到 程序 设计 语言 、 计 算 机 体系 
结构 、 语 言 理 论 、 算 法 和 软件 工程 等 学 科 。 幸 运 的 是 ， 有 几 种 基本 编译 器 编写 技术 已 经 被 用 于 
构建 许多 计算 机 的 多 种 语言 翻译 器 。 本 章 通过 描述 编译 器 的 组 成 、 编 译 器 的 工作 环境 以 及 简化 
编译 器 建造 过 程 的 软件 工具 来 介绍 编译 。 


1.1 编译 器 


简单 地 说 ， 编 译 器 是 一 个 程序 ， 它 读 人 用 某 种 语言 ( 源 语言 ) 编写 的 程序 并 将 其 翻译 成 一 
个 与 之 等 价 的 以 另 一 种 语言 ( 目标 语言 ) 编写 的 程序 ( 如 图 1-1 所 示 )。 作 为 这 个 翻译 过 程 的 一 
个 重要 组 成 部 分 ， 编 译 器 能 够 向 用 户 报告 被 编译 的 源 程序 中 出 现 的 错误 。 

目前 ， 世 界 上 存在 着 数 千 种 源 语 言 ， 既 有 Fortran 和 Pascal 这 样 的 传统 程序 设计 语言 ， 也 有 
各 计算 机 应 用 领域 中 出 现 的 专用 语言 。 目 标 
语言 也 同样 广泛 ， 目 标语 言 可 以 是 另 一 种 程 。 ” 源 程序 编译 器 目标 程序 
序 设计 语言 或 者 是 从 微 处 理 机 到 超级 计算 机 
的 任何 计算 机 的 机 器 语言 。 不 同 语言 需要 不 an 
同 的 编译 器 。 根 据 编译 器 的 构造 方法 或 者 它 mit saves 
们 要 实现 的 功能 ， 编 译 器 被 分 为 一 遍 编 译 器 、 i 
多 所 编译 器 、 装 入 并 执行 编译 器 、 调 试 编 译 器 、 优 化 编译 器 等 多 种 类 别 。 从 表面 来 看 ， 编 译 器 
的 种 类 似乎 千变万化 ， 多 种 多 样 ， 实 质 上 ， 任何 编译 器 所 要 完成 的 基本 任务 都 是 相同 的 。 通 过 
理解 这 些 任务 ， 我 们 可 以 利用 同样 的 基本 技术 为 各 种 各 样 的 源 语言 和 目标 机 器 构建 编译 器 。 

从 20 世 纪 50 年 代 早期 第 一 个 编译 器 出 现 至 今 ， 我 们 所 掌握 的 有 关 编 译 器 的 知识 已 经 得 到 了 
长 足 的 发 展 。 我 们 很 难说 出 第 一 个 编译 器 出 现 的 准确 时 间 ， 因 为 最 初 的 很 多 实验 和 实现 是 由 不 
同 的 工作 小 组 独立 完成 的 。 编 译 器 的 早期 工作 主要 集中 在 如 何 把 算术 表达 式 翻 译 成 机 器 代码 。 

整个 20 世 纪 50 年 代 ， 编 译 器 的 编写 一 直 被 认为 是 一 个 极 难 的 问题 。 比 如 Fortran 的 第 一 个 编 
译 器 花 了 18 人 年 才 得 以 实现 (Backus et al. [1957] )。 目 前 ， 我 们 已 经 系统 地 掌握 了 处 理 编译 期 
间 发 生 的 许多 重要 任务 的 技术 。 良好 的 实现 语言 、 程 序 设 计 环境 和 软件 工具 也 已 经 被 开发 出 来 。 
借助 于 这 些 先进 的 技术 、 环 境 和 工具 ， 一 个 真正 的 编译 器 完全 可 以 作为 一 个 学 期 的 编译 器 课程 
的 学 生 实习 项 目 来 实现 。 

1.1.1 编译 的 分 析 -综合 模型 

编译 由 两 部 分 组 成 : 分 析 与 综合 。 分 析 部 分 将 源 程序 切 分 成 一 些 基 本 块 并 形成 源 程序 的 中 
间 表 示 ， 综 合 部 分 把 源 程序 的 中 间 表 示 转 换 为 所 需 的 目标 程序 。 在 这 两 部 分 中 ， 综 合 部 分 需要 
大 量 的 专门 化 技术 。 我 们 将 在 1.2 节 非 正式 地 讲解 分 析 部 分 ， 在 1.3 节 粗略 地 讲解 标准 编译 器 中 
目标 代码 被 综合 的 方法 。 

在 分 析 期 间 , 源 程序 所 副 含 的 操作 将 被 确定 下 来 并 被 表示 成 为 一 个 称 为 语法 树 的 分 层 结构 。 
语法 树 的 每 个 节点 表示 一 个 操作 ， 该 节点 的 子 节点 表示 这 个 操作 的 参数 。 一 个 赋值 语句 的 语法 








树 如 图 1-2 所 示 。 AN 

许多 操纵 源 程序 的 软件 工具 都 首先 完 position Z+. 
成 某 种 类 型 的 分 析 。 下 边 是 这 类 软件 工具 initial + 
的 示例 : rate 60 


1. EBS, GRE pe 图 1-2 position:=initial+rate*60 的 语法 树 
令 序列 作为 输入 来 构造 一 个 源 程序 。 结 构 编辑 器 不 仅 实现 普通 的 文本 编辑 器 的 文本 创建 和 修 
改 功 能 ， 而 且 还 对 程序 文本 进行 分 析 ， 为 源 程序 构造 恰当 的 层次 结构 。 结 构 编 辑 器 能 够 完成 
程序 准备 过 程 中 所 需要 的 功能 。 例 如 ， 它 可 以 检查 输入 的 格式 是 否 正确 ， 能 自动 地 提供 关键 
> (BIW, MAP RRA RRS while 时 ， 编 辑 器 能 够 自动 提供 匹配 的 关键 字 do 并 提醒 用 户 
必须 在 二 者 之 间 插 入 一 个 条 件 体 )， 能 够 从 begin 或 者 左 括号 跳 转 到 与 之 匹配 的 end MHA 
括号 。 这 类 结构 编辑 器 的 输出 常常 类 似 于 一 个 编译 器 的 分 析 阶 段 的 输出 。 

2. 智能 打印 机 。 智 能 打印 机 能 够 对 程序 进行 分 析 ， 打 印 出 结构 清晰 的 程序 。 例 如 ， 注 释 以 
一 种 特殊 的 字体 打印 ， 根据 各 个 语句 在 程序 的 层次 结构 中 的 嵌 套 深度 来 缩 排 这 些 语句 。 

3. 静态 检查 器 。 和 静态 检 查 器 读 人 一 个 程序 ， 分 析 这 个 程序 ， 并 在 不 运行 这 个 程序 的 条 件 下 
试图 发 现 程 序 的 潜在 错误 。 静 态 检查 器 的 分 析 部 分 与 第 10 章 中 将 要 讨论 的 优化 编译 器 的 分 析 部 
分 类 似 。 比 如 ， 静 态 检 查 器 可 以 查 出 源 程序 中 永远 不 能 被 执行 的 语句 ， 也 可 以 查 出 变量 在 被 定 
义 以 前 被 引用 。 另 外 ， 利 用 第 6 章 要 讨论 的 类 型 检查 技术 ， 静 态 检查 器 还 可 以 捕获 诸如 将 实 型 
变量 用 作 指 针 这 样 的 逻辑 错误 。 

4. 解释 器 。 解 释 器 不 是 通过 翻译 来 产生 目标 程序 ， 而 是 直接 执行 源 程序 中 蕴含 的 操作 。 例 
如 ， 对 于 一 个 赋值 语句 ， 解 释 器 为 之 建立 一 个 类 似 于 图 1-2 的 树 ， 然 后 通过 遍历 这 棵 树 来 执行 
节点 上 的 操作 。 在 根 节点 ， 解 释 器 会 发 现 它 有 一 个 赋值 操作 要 完成 ， 因 此 它 调 用 表达 式 计算 例 
程 去 计算 赋值 操作 右 端的 表达 式 ， 然 后 将 结果 存放 到 与 标识 符 position 相关 联 的 地 址 。 在 
根 节 点 的 右 子 节点 处 ,表达 式 计算 例 程 将 发 现 它 要 计算 两 个 表达 式 的 和 。 表 达 式 计算 例 程 递归 
地 调用 它 自身 来 计算 表达 式 rate*60 的 值 ， 然 后 将 这 个 值 加 到 变量 initial 的 值 上 。 

由 于 命令 语言 中 执行 的 每 个 操作 通常 都 是 对 编辑 器 或 编译 器 一 类 复杂 例 程 的 调用 ， 解 释 器 
经 常用 于 执行 命令 语言 。 类 似 地 ， 一 些 “ 非 常 高 级 ”的 语言 ， 如 APL, 通 常 都 是 解释 执行 的 ， 
因为 有 许多 关于 数据 的 信息 ( 如 数组 的 大 小 和 形状 ) 不 能 在 编译 时 得 到 。 

按照 传统 的 观念 ， 编 译 器 一 般 被 看 成 是 把 使 用 Fortran 等 高 级 语言 编写 的 源 程序 翻译 成 汇编 
语言 或 者 某 种 计算 机 的 机 器 语言 的 程序 。 然 而 ， 在 很 多 与 语言 翻译 毫 不 相关 的 场合 ， 编 译 技术 
也 常常 被 使 用 。 下 面 举 出 的 每 一 个 例子 中 的 分 析 部 分 都 与 传统 观念 中 的 编译 器 的 分 析 部 分 相似 。 

1. 文本 格式 器 〈text formatter )。 文 本 格式 器 的 输入 是 一 个 字符 流 。 输 入 字符 流 中 的 多 数字 
符 串 是 需要 排版 输出 的 字符 串 ， 同 时 字符 流 中 也 包含 一 些 用 来 说 明 字 符 流 中 的 段落 、 图 表 或 者 
上 标 和 下 标 等 数学 结构 的 命令 。 下 一 节 将 介绍 一 些 由 文本 格式 器 完成 的 分 析 工 作 。 

2. 硅 编 译 器 〈silicon compiler )。 硅 编译 器 的 输入 是 一 个 源 程 序 ， 这 个 源 程序 的 程序 设计 语 
言 类 似 于 传统 的 程序 设计 语言 。 但 是 ， 该 语言 中 的 变量 不 是 内 存 中 的 地 址 ， 而 是 开关 电路 中 的 
逻辑 符号 〈0 或 1 ) 或 符号 组 。 硅 编译 器 的 输出 是 一 个 以 适当 语言 书写 的 电路 设计 。 关 于 硅 编译 
器 的 讨论 参见 Johnson[1983]，Ullman[1984] 或 者 Trickey[1985]。 

3. 查询 解释 器 ( query interpreter )。 查 询 解 释 器 把 含有 关系 和 布尔 运算 的 谓词 翻译 成 数据 
库 命令 ， 在 数据 库 中 查询 满足 该 谓词 的 记录 (参见 Ullman[1982] 或 Date[1986] )。 
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1.12 编译 器 的 前 驱 与 后 继 源 程序 梗概 
为 了 建立 可 执行 的 目标 程序 ， 除 了 编译 器 — 
以 外 ， 我 们 还 需要 几 个 其 他 的 程序 。 源 程序 可 alata 
能 被 分 成 模块 存储 在 不 同 的 文件 中 。 把 存储 在 wry 
不 同文 件 中 的 程序 模块 集成 为 一 个 完整 的 源 程 
序 这 个 任务 由 一 个 称 为 预 处 理 器 的 程序 完成 。 


预 处 理 器 也 能 够 把 源 程序 中 称 为 宏 的 缩写 语句 


. 目标 汇编 程序 
展开 为 原始 语句 加 入 到 源 程序 中 。 
图 1-3 给 出 了 一 个 典型 的 “编译 ”过 程 。 由 
编译 器 创建 的 目标 程序 需要 进一步 处 理 才 能 运 y 
行 。 图 1-3 中 的 编译 器 产生 汇编 代码 ， 汇 编 代码 THe DAHLE 
需要 由 汇编 器 翻译 成 机 器 代码 ， 然 后 与 一 些 库 Er 
程序 连接 在 一 起 形成 可 在 计算 机 上 运行 的 代码 。 ci 
下 两 节 讨论 编译 器 的 组 成 部 件 。 图 1-3 中 的 绝对 机 器 代码 
其 他 程序 将 在 1.4 节 讨论 。 图 1-3 一 个 语言 处 理 系统 


1.2 源 程序 分 析 


本 节 介 绍 编译 器 的 分 析 过 程 ， 并 说 明 它 在 一 些 文本 格式 化 语言 中 的 应 用 。 这 一 论题 将 在 第 
2、3、4、6 章 中 更 详细 地 讨论 。 在 编译 中 ， 源 程序 的 分 析 过 程 由 如 下 三 个 阶段 组 成 : 

1. 线性 分 析 。 在 线性 分 析 中 ， 从 左 到 右 地 读 构成 源 程序 的 字符 流 ， 而 且 把 字符 流 分 组 为 多 
个 记号 (token )， 而 记号 是 具有 整体 含义 的 字符 序列 。 

2. 层次 分 析 。 在 层次 分 析 中 ， 字 符 串 或 记号 在 层次 上 划分 为 具有 一 定 层次 的 多 个 柑 套 组 ， 
每 个 嵌 套 组 具有 整体 的 含义 。 

3. 语义 分 析 。 在 语义 分 析 中 要 进行 某 些 检查 ， 以 确保 程序 各 个 组 成 部 分 确实 是 有 意义 地 组 
合 在 一 起 的 。 
1.2.1 词法 分 析 

在 编译 器 中 ， 线 性 分 析 被 称 为 词法 分 析 或 者 扫描 。 例 如 ， 在 词法 分 析 中 ， 赋 值 语 句 
position := initial + rate * 60 中 的 字符 将 被 分 组 为 以 下 记号 组 : 

1. 标识 符 position。 

2. 赋值 符号 :=。 

3. 标识 符 initial。 

4. 加 号 +. 

5. 标识 符 rate。 

6. 乘 号 *。 


7. 数字 60。 
在 词法 分 析 过 程 中 ， 分 陋 这 些 记 号 的 字符 的 空格 将 被 删除 。 5 
1.2.2 语法 分 析 
层次 分 析 被 称 为 语法 分 析 ( parsing 或 者 syntax analysis )。 它 把 源 程序 的 记号 进一步 分 组 ， 产 
生 被 编译 器 用 于 生成 代码 的 语法 短语 。 通 常 ， 源 程序 的 语法 短语 用 图 1-4 所 示 的 分 析 树 来 表示 。 
在 表达 式 bosition := initial + rate * 60 中 ，ratex60 是 一 个 逻辑 单元 ， 因 
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为 通常 的 关于 算术 表达 式 的 定律 告诉 我 们 乘法 比 加 法 先 计 算 。 由 于 表达 式 initial+rate 后 
有 一 个 * ， 这 个 表达 式 没 有 被 划分 成 单个 短语 。 


aes 
minti 
position oO PN 
表达 式 表达 式 
| 一 
标识 符 ， 
| 表达 式 表达 式 
initial | | 
Ww 
rate 60 


图 1-4 position := initial + rate * 60 的 分 析 树 
程序 的 层次 结构 通常 是 通过 递归 规则 来 表达 的 。 比 如 ， 我 们 可 能 把 下 述 的 规则 作为 表达 式 
定义 的 一 部 分 : 
1. 任何 一 个 标识 符 ( identifier ) 都 是 表达 式 ; 
2. 任何 一 个 数 〈《number ) 都 是 表达 式 ; 
3, 如 果 expressiom 和 expressionz 是 表达 式 ， 则 
expression, + expression, 


expression, * expression) 
( expression, ) 


也 是 表达 式 。 

规则 1 和 规则 2 是 〈 非 递归 的 ) 基本 规则 ， 而 规则 3 通过 将 运算 符 用 到 其 他 表达 式 上 递归 地 
定义 了 表达 式 。 于 是 ， 由 规则 1 可 知 ，initial 和 rate 是 表达 式 ， 由 规则 2 可 知 ，60 是 表达 式 ， 
而 由 规则 3 我 们 首先 可 以 知道 rate*60 是 一 个 表达 式 ， 最 后 jnitial+rate*60 是 一 个 表达 式 。 

Le] 类 似 地 ， 许 多 语言 用 下 列 规则 来 递归 地 定义 语句 : 

1. 如 果 identifier, 是 一 个 标识 符 ，expressiom 是 一 个 表达 式 ， 则 

identifier, := expression 
是 一 个 语句 。 

2. 如 果 expression, 是 一 个 表达 式 ，statements 是 一 个 语句 ， 则 


while ( expression, ) do statement, 
if ( expression, ) then statement, 


是 语句 。 

ier 看 法 分 析 的 界限 在 某 种 程度 上 是 不 确定 的 。 我 们 通常 采取 能 够 使 整个 分 析 工 作 
简化 的 方法 来 设 定 词法 分 析 与 语法 分 析 的 界限 。 决 定 词法 分 析 和 语法 分 析 界 限 的 因素 是 源 语言 
是 否 具有 递归 结构 。 词 法 结构 不 要 求 递归 ， 而 语法 结构 常常 需要 递归 。 上 下 文 无 关 文法 是 递归 
规则 的 一 种 形式 化 ， 可 以 用 来 指导 语法 分 析 。 第 2 章 和 第 4 章 将 对 上 下 文 无 关 文法 进行 详细 讨论 。 

例如 ， 在 识别 源 语 言 的 标识 符 ( 由 字母 开头 的 字母 和 数字 串 ) 时 ， 我 们 不 需要 递归 ， 只 要 
简单 地 扫描 输入 流 就 可 以 完成 标识 符 的 识别 。 一 般 地 ， 直 到 遇见 一 个 既 不 是 字母 也 不 是 数字 的 
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字符 时 为 止 ， 在 这 之 前 扫描 到 的 字母 和 数字 归结 为 一 个 标识 符 记 号 ， 被 分 组 的 字符 存储 到 一 个 
称 为 符号 表 的 表 中 ， 并 将 这 些 字符 从 输入 中 删除 以 便 开始 扫描 下 一 个 记号 。 

另 一 方面 ， 这 种 线性 扫描 不 具有 分 析 源 语言 的 表达 式 或 语句 的 能 力 。 例 如 ， 不 在 输入 上 设 
置 某 种 类 型 的 层次 结构 或 嵌 套 结构 ， 我 们 就 不 能 正确 地 匹配 表达 式 中 的 括号 或 者 语句 中 的 
begin 和 end。 

图 1-4 中 的 分 析 树 刻画 了 输入 的 语法 结构 。 该 语法 结构 的 更 常见 的 内 部 表示 可 以 由 图 1-5a 中 
的 语法 树 给 出 。 语 法 树 是 分 析 树 的 一 种 压缩 表示 ， 其 内 节点 表示 操作 符 ， 操 作 符 的 操作 数 是 该 
操作 符 对 应 车 点 的 子 节点 。5.2 节 将 详细 讨论 图 1-5a 所 示 语 法 树 的 构造 。 我 们 将 在 第 2 章 和 第 5 章 
详尽 地 讨论 语法 制导 翻译 。 在 语法 制导 翻译 中 ， 编 译 器 利用 源 程 序 的 层次 结构 生成 输出 结果 。 


position ~、 + position + 
initial * initial * 
rate 60 rate initoreal 
a) b) 60 
图 1-5 语义 分 析 插 入 了 一 个 整数 到 实数 的 转换 
1.2.3 语义 分 析 
语义 分 析 阶 段 检测 源 程 序 的 语义 错误 ， 并 收集 代码 生成 阶段 要 用 到 的 类 型 信息 。 语 义 分 析 
利用 语法 分 析 阶 段 确定 的 层次 结构 来 识别 表达 式 和 语句 中 的 操作 符 和 操作 数 。 
语义 分 析 的 一 个 重要 组 成 部 分 是 类 型 检查 。 类 型 检查 负责 检验 每 个 操作 符 的 操作 数 是 否 满 
足 源 语言 的 说 明 。 例 如 ， 很 多 程序 设计 语言 都 要 求 每 当 一 个 实数 用 于 数组 的 索引 时 都 要 报错 。 
程序 设计 语言 可 能 允许 一 些 操作 数 的 强制 类 型 转换 。 例 如 ， 一 个 二 元 算术 操作 符 的 操作 数 可 以 
是 一 个 整数 和 一 个 实数 。 在 这 种 情况 下 ， 编 译 器 将 把 整数 强制 转换 成 实数 。 类 型 检查 和 语义 分 
析 将 在 第 6 章 中 讨论 。 


例 1.1 在 机 器 内 部 ， 整 数 的 二 进 制 表 示 形 式 不 同 于 实数 的 二 进 制 表示 形式 。 两 个 具有 相 
同 数值 的 整数 与 实数 的 机 器 内 部 表示 也 不 相同 。 例 如 ， 假 定 图 1-5 中 的 所 有 标识 符 都 被 声明 为 
实数 ， 而 60 自 己 却 被 假定 为 整数 。 在 对 图 1-5 进 行 类 型 检查 时 编译 器 会 发 现 * 被 应 用 到 实数 
rate 和 整数 60 上 。 一 般 的 解决 方法 是 将 整数 转换 成 实数 。 图 1-5b 给 出 了 整数 转换 为 实数 的 方 
法 ， 即 创建 一 个 额外 节点 inttoreal， 显 式 地 将 一 个 整数 转换 成 一 个 实数 。 解 决 类 型 转换 的 另 一 
种 方法 是 用 一 个 等 值 的 实数 常数 来 蔡 代 整 数 ， 因 为 mttoreal 的 操作 数 是 常数 。 口 


1.2.4 文本 格式 器 中 的 分 析 

将 文本 格式 器 的 输入 看 成 是 由 多 个 金子 构成 的 层次 结构 的 说 明 是 有 益 的 。 一 个 盒子 是 一 
个 用 某 种 位 模式 填充 的 矩形 区 域 ， 填 充 的 位 模式 表明 该 区 域 被 输出 设备 打印 成 浅 黑 像素 还 是 
黑 像素 。 

例如 ，TEX 系 统 (Knuth[1984a]) 就 是 这 样 看 待 其 输入 的 。 非 命令 行 的 每 个 字符 都 表示 一 个 
盒子 ， 其 中 包含 了 表示 该 字符 的 字体 和 尺寸 的 位 模式 。 没 有 用 “空白 ”( 空格 或 者 换行 符 ) 隔 
开 的 连续 字符 被 识别 为 一 个 词 ， 由 一 列 水 平 排列 


的 盒子 构成 ， 如 图 1-6 所 示 。 把 字符 串 识别 为 词 tiwllol [wllolrlidls 


(或 者 命令 ) 的 过 程 就 是 文本 格式 器 的 线性 分 析 或 图 1-6 字符 和 词 分 组 为 盒子 
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TEX 中 的 一 个 盒子 可 以 由 多 个 较 小 盒子 在 水 平和 坚 直 方向 上 的 任意 组 合 来 构成 。 例 如 ， 
命令 
通过 水 平 排列 一 列 盒子 来 构成 一 个 新 盒子 。 类 似 地 ， 命 令 \vbox 通 过 垂直 并 置 一 列 盒子 来 构成 
一 个 新 盒子 。 这 样 ，TEX 的 命令 行 
将 产生 图 1-7 所 示 的 盒子 结构 。 确 定 输入 串 中 蕴 
含 的 盒子 的 层次 结构 是 TeX 语 法 分 析 的 重要 组 成 
文本 格式 器 的 另 一 个 例子 是 用 于 数学 公式 排版 的 预 处 理 器 EQN (Kernighan and Cherry 
[1975] ) 或 者 TEX 的 数学 公式 排版 处 理 器 。 它 们 使 用 操作 符 来 构建 数学 表达 式 。 例 如 ， 操 作 
BOX sub box 
它 将 把 box 的 尺寸 缩小 并 置 于 BOX 的 右 下 角 ， 如 
BOX 的 右上 角 。 
这 些 操 作 符 可 以 说 套 使 用 。 例 如 ，EQN 文 本 图 1-8 建立 数学 公式 中 的 下 标 结构 
将 产生 22, HE EQN 文本 中 sub 和 sup 操 作 符 分 组 为 记号 的 工作 是 EQN 词法 分 析 的 一 部 分 。 
EQN 文 本 中 盒子 的 大 小 和 位 置 需要 由 EQN 文本 的 语法 结构 来 确定 。 
从 概念 上 讲 ， 编 译 器 是 分 阶段 执行 
的 。 每 个 阶段 将 源 程序 从 一 种 表示 转换 
段 划分 如 图 1-9 所 示 。 我 们 在 1.5 节 已 经 
提 到 ， 实 际 上 编译 器 的 有 些 阶段 可 以 合 
一 起 ， 则 这 些 阶 段 的 中 间 表 示 不 需要 明 
确 地 构造 出 来 。 
中 介绍 的 编译 器 的 分 析 部 分 。 图 中 的 符 
号 表 管 理 和 错误 处 理 是 编译 器 的 六 个 阶 
中 间 代 码 生 成 、 代 码 优化 和 代码 生成 ) 1 
都 要 涉及 的 两 项 活动 。 以 后 ， 我 们 也 把 目标 程序 


词法 分 析 部 分 。 
‘\hbox{ <list of boxes> } 
\hbox{\vbox{! 1} \vbox{@ 2}} 
部 分 。 图 1-7 TEX 中 盒子 的 层次 结构 
符 sub 和 sup 表示 数学 公式 中 的 上 标 和 下 标 。 如 果 EQN 遇 到 如 下 的 输入 文本 
图 1-8 所 示 。 类 似 地 ，sup 操作 符 将 box BF 
a sub {i sup 2} 
1.3 编译 器 的 各 阶段 
成 另 一 种 表示 。 编 译 器 的 一 个 典型 的 阶 
并 到 一 起 。 如 果 几 个 阶段 已 经 被 合并 到 
图 1-9 中 的 前 三 个 阶段 构成 了 上 节 
Bi (词法 分 析 、 语 法 分 析 、 语 义 分 析 、 
符号 表 管 理 器 和 错误 处 理 器 非 正 规 地 称 图 1-9 编译 器 的 各 阶段 
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为 编译 器 的 “阶段 ”。 
1.3.1 符号 表 管理 

编译 器 的 一 个 基本 功能 是 记录 源 程序 中 使 用 的 标识 符 并 收集 与 每 个 慰 识 符 相 关 的 各 种 属性 
信息 。 标 识 符 的 属性 信息 表明 了 该 标识 符 的 存储 位 置 、 类 型 、 作 用 域 ( 在 哪 段 程 序 中 有 效 ) 等 
信息 。 当 一 个 标识 符 是 过 程 名 时 ， 它 的 属性 信息 还 包括 诸如 参数 的 个 数 与 类 型 、 每 个 参数 的 传 
递 方法 〈 如 传 地 址 方式 ) 以 及 返回 值 的 类 型 等 信息 。 

符号 表 是 一 个 数据 结构 。 每 个 标识 符 在 符号 表 中 都 有 一 条 记录 ， 记 录 的 每 个 域 对 应 于 该 标 
识 符 的 一 个 属性 。 这 种 数据 结构 允许 我 们 快速 地 找到 每 个 标识 符 的 记录 ， 并 在 该 记录 中 快速 地 
存储 和 检索 信息 。 符 号 表 将 在 第 2 章 和 第 7 章 中 详细 讨论 。 

当 源 程序 中 的 一 个 标识 符 被 词法 分 析 器 识别 出 来 时 ， 词 法 分 析 器 将 在 符号 表 中 为 该 标识 名 
建立 一 条 记录 。 但 是 ， 标 识 符 的 属性 一 般 不 能 在 词法 分 析 中 确定 。 例 如 ， 在 如 下 的 Pascal 源 程 
序 的 声明 


var position, initial, rate : real ; 


中 ， 当 position, initial, rate 被 词法 分 析 器 识别 时 ， 它 们 的 数据 类 型 (real) 还 是 
未 知 的 。 

标识 符 的 属性 信息 将 由 词法 分 析 以 后 的 各 阶段 陆续 写 人 符号 表 ， 并 以 各 种 方式 被 使 用 。 例 
如 ， 当 进行 语义 分 析 和 中 间 代 码 生 成 时 ， 我 们 需要 知道 标识 符 是 哪 种 类 型 ， 以 便 检查 源 程 序 古 
否 正 确 地 使 用 了 这 些 标识 符 ， 并 在 它们 之 上 生成 正确 的 操作 。 代 码 生成 器 将 赋予 标识 符 的 存储 
位 置信 息 写 人 符号 表 ， 而 且 代码 生成 器 还 要 使 用 符号 表 中 标识 符 的 存储 位 置信 息 。 
1.3.2 错误 检测 与 报告 

每 个 阶段 都 可 能 遇 到 错误 。 各 阶段 检测 到 错误 以 后 ， 必 须 以 恰当 的 方式 进行 错误 处 理 ， 使 
得 编译 器 能 继续 运行 ， 以 检测 出 源 程序 中 的 更 多 错误 。 发 现 错误 即 停止 运行 的 编译 器 不 是 一 个 
好 的 编译 器 。 

语法 分 析 和 语义 分 析 阶 段 通常 能 够 处 理 编译 器 所 能 检测 到 的 大 部 分 错误 。 词 法 分 析 阶 段 能 
人 够 检测 出 输入 中 不 能 形成 源 语言 任何 记号 的 错误 字符 串 。 语 法 分 析 阶 段 可 以 确定 记号 流 中 违反 
源 语言 结构 ( 语法 ) 规则 的 错误 。 语 义 分 析 阶 段 试图 检测 出 具有 正确 的 语法 结构 但 对 操作 无 意 
义 的 部 分 。 例如， 我 们 试图 将 两 个 标识 符 相 加 ， 其 中 一 个 标识 符 是 数组 名 ， 而 另 一 个 标识 符 却 
是 过 程 名 。 本 书 将 在 详细 讨论 编译 器 的 各 阶段 时 详细 介绍 各 阶段 的 错误 处 理 方法 。 
1.3.3 各 分 析 阶 段 

随 着 编译 器 各 个 分 析 阶 段 的 进展 ， 源 程序 的 内 部 表示 不 断 地 发 生变 化 。 我 们 现在 通过 语句 


position := initial + rate * 60 (1-1) 


的 翻译 过 程 来 描述 源 程 序 内 部 表示 的 变化 过 程 。 图 1-10 展 示 了 该 语句 在 每 个 阶段 之 后 的 表示 。 

词法 分 析 阶 段 读 和 人 源 程序 中 的 字符 ， 并 将 这 些 字符 分 组 形成 记号 流 ， 其 中 每 个 记号 表示 一 
个 逻辑 上 相关 的 字符 序列 ， 如 标识 符 、 关 键 字 ( if、while 等 )、 标 点 符号 、 多 字符 运算 符 := 
等 。 形 成 一 个 记号 的 字符 序列 称 为 该 记号 的 词素 (lexeme )。 

某 些 记号 需要 被 赋予 “词法 值 "。 例 如 ， 当 rate 这 样 的 记号 被 识别 时 ， 词 法 分 析 器 不 但 要 
生成 一 个 记号 ( 比如 id), 而 且 如 果 词 素 rate 在 符号 表 中 不 存在 ， 还 要 在 符号 表 中 为 rate 建 
立 一 个 记录 ， 将 单词 rate 写 人 到 符号 表 中 去 。 与 id 相关 联 的 词法 值 指向 符号 表 中 rate 的 记录 。 

在 本 节 ， 我 们 将 使 用 id 、id 、ids 表示 position、initial、rate， 以 强调 标识 符 的 
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内 部 表示 不 同 于 组 成 标识 符 的 字符 序列 。 显 然 ， 语 句 (1-1) 的 表示 在 词法 分 析 后 被 表示 为 : 

id; := id, + id, + 60 (1-2) 
我 们 还 要 为 多 字符 运算 符 “:=” 和 数字 60 建 立 记号 以 反映 它们 的 内 部 表示 ， 但 我 们 将 这 部 分 内 
容 推 迟到 第 2 章 。 词 法 分 析 将 在 第 3 章 中 详细 讨论 。 


position := initial + rate » 60 


词法 分 析 器 


id, := id, +id; * 60 


符号 表 
| [position] | 
2 [initial | 
3 [rate 
4 


中 间 代 码 生 成 器 


= inttoreal(60) 
temp2 := id3 * 七 emp1 
temp3 := id2 + temp2 
id1 := temp3 


temp1 := id3 * 60.0 
id1 := id2 + 七 emp1 


MOVF R1, id1 
图 1-10 一 个 语句 的 翻译 
我 们 已 经 在 1.2 节 介绍 了 第 二 阶段 和 第 三 阶段 ， 即 语法 分 析 和 语义 分 析 。 语 法 分 析 在 记号 
流 上 建立 一 个 层次 结构 ， 我 们 采用 图 1-11a 中 的 语法 树 来 表示 记号 流 的 层次 结构 。 语 法 树 的 一 
种 典型 数据 结构 如 图 1-11b 所 示 ， 其 中 每 个 内 节点 是 一 个 记录 ， 每 个 记录 具有 三 个 域 ， 一 个 域 
存储 操作 符 ， 另 外 两 个 域 存储 指向 左 、 右 子 节点 的 指针 。 叶 节点 是 一 个 具有 两 个 或 者 更 多 域 的 
记录 ， 其 中 一 个 域 用 于 标识 该 叶 节 点 上 的 记号 ， 其 他 域 用 于 记录 该 记号 的 相关 信息 。 我 们 可 以 
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增加 各 节点 记录 的 域 ， 以 便 存储 与 语言 结构 相关 的 附加 信息 。 我 们 将 在 第 4 章 和 第 6 章 分 别 讨论 
语法 分 析 和 语义 分 析 。 
ZTN 
id, + 
pd 
id, 


id; 60 





a) 
图 1-11 0) 是 a) 中 树 的 数据 结构 

1.3.4 中 间 代 码 生成 

某 些 编译 器 在 完成 语法 分 析 和 语义 分 析 以 后 ， 产 生源 程序 的 一 个 显 式 中 间 表 示 。 我 们 可 以 
将 这 种 中 间 表 示 看 成 是 某 种 抽象 机 的 程序 。 源 程序 的 中 间 表 示 应 该 具有 两 个 重要 性 质 。 一 是 易 
于 产生 ， 二 是 易于 翻译 成 目标 程序 。 

源 程序 的 中 间 表 示 有 多 种 形式 。 在 第 8 章 ， 源 程序 的 中 间 表 示 形 式 被 称 为 “三 地 址 码 ”， 类 
似 于 某 种 机 器 的 汇编 语言 ， 这 种 机 器 的 每 个 存储 单元 的 作用 类 似 于 寄存 器 。 三 地 址 码 由 指令 序 
列 组 成 ， 每 个 指令 最 多 有 三 个 操作 数 。 式 (1-1) 中 的 源 程序 的 三 地 址 码 如 下 : 


temp1 := inttoreal(60) 

temp2 := id3 * temp1 (1-3) 
temp3 := id2 + temp2 

ia1 := temp3 


这 种 中 间 表 示 形 式 上 共有 以 下 几 个 特点 。 首 先 ， 除 赋值 以 外 ， 每 个 三 地 址 指令 最 多 只 有 一 个 
操作 符 。 因 此 , 在 生成 这 些 指令 时 ， 编 译 器 必须 确定 完成 操作 的 顺序 。(1-1) 中 乘法 优先 于 加 法 。 
其 人 次， 编译 器 必须 为 每 条 指令 产生 一 个 临时 变量 ， 用 以 保存 这 条 指令 的 计算 结果 。 第 三 ， 某 些 
“三 地 址 ”指令 的 操作 数 少 于 三 个 ， 如 (1-3) 的 第 一 条 指令 和 第 四 条 指令 。 

我 们 将 在 第 8 章 介绍 几 种 编译 器 中 使 用 的 主要 中 间 表 示 形 式 。 一 般 ， 中 间 表 示 不 仅仅 计算 
表达 式 ， 它 们 还 必须 处 理 控 制 流 结构 和 过 程 调用 等 其 他 任务 。 第 $ 章 和 第 8 章 介 绍 一 些 典 型 程序 
设计 语言 结构 的 中 间 代 码 生 成 算法 。 

1.3.5 代码 优化 

代码 优化 阶段 试图 改进 中 间 代 码 ， 以 产生 执行 速度 较 快 的 机 器 代码 。 有 些 编译 器 几乎 没有 
进行 代码 优化 。 例 如 ， 生 成 中 间 代 码 (1-3) 的 一 个 很 自然 的 算法 是 对 语义 分 析 后 的 树 的 每 个 运算 
符 产 生 一 条 指令 。 当 然 ， 还 有 更 好 的 算法 ， 如 使 用 以 下 两 条 指令 14 


templ := id3 * 60.0 1-4 
id1 := id2 + temp? ( ) 





也 可 以 完成 同样 的 计算 。 因 为 问题 可 以 在 代码 优化 阶段 被 修正 ， 所 以 这 个 简单 算法 没有 什么 错误 。 
也 就 是 说 ， 在 优化 阶段 ， 编 译 器 会 推断 出 ，60 从 整 型 变 为 实 型 表示 的 转换 可 以 在 编译 时 一 次 完成 
多 次 使 用 ， 从 而 inttoreal 操 作 可 以 删 去 ;temp3 只 使 用 一 次 ， 即 把 它 的 值 传 给 ia1， 可 以 用 
idl 代 蔡 cemp3， 从 而 (1-3) 中 的 最 后 一 条 语句 不 是 必需 的 ， 这 样 就 得 到 了 (1-4) 的 结果 。 

不 同 编译 器 所 产生 的 代码 的 优化 程度 差别 很 大 。 能 够 完成 很 大 程度 的 代码 优化 的 编译 器 称 
为 “优化 编译 器 " 。 优 化 编译 器 将 相当 多 的 时 间 都 消耗 在 代码 优化 上 。 但 是 ， 有 一 些 简 单 优化 
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方法 ， 它 们 既 可 以 使 目标 程序 的 执行 时 间 得 到 很 大 的 缩短 ， 又 不 会 使 编译 速度 降低 太 大 。 很 多 
这 方面 的 内 容 将 在 第 9 章 讨论 。 第 10 章 将 介绍 最 强大 的 优化 编译 器 所 使 用 的 代码 优化 技术 。 
1.3.6 代码 生成 

编译 的 最 后 一 个 阶段 是 目标 代码 生成 ， 生 成 可 重 定位 的 机 器 代码 或 者 汇编 代码 。 在 这 一 阶 
段 ， 编 译 器 为 源 程 序 定义 和 使 用 的 变量 选择 存储 单元 ， 并 把 中 间 指 令 翻译 成 完成 相同 任务 的 机 
器 代码 指令 序列 。 这 个 阶段 的 一 个 关键 问题 是 变量 的 寄存 器 分 配 。 

例如 ， 使 用 寄存 器 R1 和 R2 ，(1-4) 的 中 间 代 码 可 以 翻译 成 

MOVF id3, R2 

MULF #60.0, R2 

MOVF id2, R1 (1-5) 

ADDF R2, R1 

MOVF R1, id1 


每 条 指令 的 第 一 和 第 二 个 操作 数 分 别 代表 源 操作 数 和 目的 操作 数 。 每 条 指令 中 的 告诉 我 们 
指令 处 理 的 是 浮 点 数 。 第 一 和 第 二 条 指令 把 地 址 。ia3 中 的 内 容 取出 后 存 人 寄存 器 R2 中 ， 然 
后 把 它 乘 上 实数 60.0。# 表 示 把 50 .0 作为 常数 处 理 。 第 三 条 指令 把 ia2 中 的 内 容 取出 后 存 人 
寄存 器 R1。 第 四 条 指令 把 寄存 器 R2 和 Ri 中 的 值 相 加 ， 并 存 人 寄存 器 R1。 最 后 ， 第 五 条 指令 
将 寄存 器 RI 的 值 存 人 地 址 ia1 。 这 样 ， 这 段 代码 实现 了 图 1-10 中 的 赋值 语句 。 第 9 章 将 详细 
讨论 代码 生成 。 


1.4 编译 器 的 伙伴 


从 图 1-3 我 们 可 以 看 到 ， 编译 器 的 输入 可 能 由 一 个 或 者 多 个 预 处 理 器 产生 ， 而 编译 器 的 输 
出 也 可 能 需要 进一步 的 处 理 才能 成 为 可 执行 的 机 器 代码 。 本 节 讨 论 编译 器 的 输入 和 输出 进行 预 
处 理 和 后 加 工 的 编译 器 的 伙伴 。 

1.4.1 预 处 理 器 

预 处 理 器 产生 编译 器 的 输入 ， 一 般 具 有 以 下 功能 : 

1. 宏 处 理 。 预 处 理 器 允许 用 户 在 源 程序 中 定义 宏 。 宏 是 被 经 常 使 用 的 较 长 结构 的 缩写 。 

2. 文件 包含 。 预 编译 器 可 以 把 头 文件 包含 到 程序 正文 中 。 例 如 ，C 语 言 的 预 处 理 器 能 够 用 
<global .h> 文 件 的 内 容 蔡 代 源 程序 中 的 语句 #include <global.h>。 

3. “理性 ” 预 处 理 器 。 这 些 处 理 器 能 把 现代 控制 流 和 数据 结构 化 机 制 添加 到 比较 老式 的 语 
言 中 。 例 如 ， 如 果 一 种 语言 没有 while 语句 和 if 语句 这 样 的 控制 结构 ， 理 性 预 处 理 器 可 以 用 内 
部 宏 定义 向 用 户 提 供 这 类 控制 结构 。 

4. 语言 扩充 。 这 类 处 理 器 通过 大 量 的 内 部 宏 定 义 来 增强 语言 的 能 力 。 例 如 ，Equel 语言 
( Stonebraker et al. [1976] ) 是 一 种 拉 套 在 C 语 言 中 的 数据 库 查 询 语言 。 以 ## 开始 的 语句 被 处 理 
器 识别 为 数据 库存 取 语句 ( 与 C 语 言 无 关 )， 并 被 翻译 成 对 例 程 的 过 程 调用 ， 这 些 例 程 完 成 数 
据 库 的 存 取 。 

宏 处 理 器 处 理 两 种 类 型 的 语句 : 宏 定义 和 宏 引 用 。 宏 定义 由 具有 惟一 性 的 字符 或 者 关键 字 
来 标识 ， 如 define 或 macro。 宏 定义 包含 被 定义 的 宏 的 名 字 和 构成 其 定义 的 体 。 通 常 ， 宏 
处 理 器 允许 宏 定义 中 包含 形式 参数 ， 即 将 被 值 替 代 的 符号 ( 这 里 ,，“ 值 ”是 一 个 字符 串 )。 宏 的 


”我 们 避 开 了 一 个 重要 的 问题 ， 即 源 程序 中 的 标识 符 的 存储 分 配 。 我 们 在 第 7 章 将 会 看 到 ， 运 行 时 的 存储 组 
织 依赖 于 被 编 详 的 语言 。 存 储 分 配 是 在 中 间 代码 生成 或 者 代码 生成 时 决定 的 。 
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引用 只 需要 提供 宏 名 和 实在 套数。 实在 参数 是 形式 参数 的 值 。 宏 处 理 器 用 实在 参数 替代 宏 体 中 
的 形式 参数 ， 然 后 用 变换 后 的 宏 体 替代 宏 引用 本 身 。 


例 1.2 ”1.2 节 中 的 TEX 排 版 系统 使 用 了 一 个 一 般 的 宏 机 制 ， 宏 定义 具有 如 下 形式 
\define < 宏 名 > < 模板 > {< 体 >} 


Hip, 22% (macro name) HW RITA BE, BAe (template) 是 任意 字符 串 ， 
BAAR #1, #2, --, OM FARBEABRER. REASON UERS KMRL 
中 。 例如， 下 面 的 宏 定义 了 对 Journal of the ACM 的 引用 : 


\define\JACM #1;#2;#3. . 
{{\sl J. ACM} {\bf #1}:#2, pp. #3.} 


RE, RAde\sacM, RIE “#1; #2; ”#3 .”， 分 号 将 形式 参数 隔 开 ， 最 后 一 个 形式 参数 
后 紧 跟 一 个 点 号 。 该 宏 的 引用 必须 采用 模板 的 形式 ， 当 然 任 何 字 符 串 都 可 用 来 代替 形式 参数 。。 
于 是 ， 宏 引用 

\JACM 173;4;715-728. 
的 结果 是 

J. ACM 17:4, pp. 715-728. 


宏 体 的 (\s1L J. ACM} 部 分 产生 斜体 “J. ACM”， 表 达 式 {\bf #11} 指明 第 一 个 实在 参数 是 黑 
体 的 ， 这 个 参数 用 于 指明 期 刊 卷 号 。 

TEX SUFFER \JACM 定义 中 使 用 任意 标点 或 者 文本 串 来 将 卷 号 、 期 号 和 页 码 分 隔 开 。 我 
们 也 可 以 不 用 任何 标点 符号 ， 在 这 种 情况 下 ，TEX 将 认为 每 个 实在 参数 是 一 个 单字 符 或 者 用 
{) 括 起 来 的 串 。 口 
1.4.2 汇编 器 

某 些 编译 器 产生 汇编 代码 ， 如 前 面 的 (1-5)。 汇 编 代码 需要 交 给 汇编 器 做 进一步 的 处 理 。 也 
有 些 编译 器 能 够 完成 汇编 器 的 工作 ， 产 生 可 重 定位 的 机 器 代码 ， 交 给 装配 器 (loader) MAE 
接 编辑 器 (link-editor ) 处 理 。 我 们 假定 读者 已 具备 汇编 语言 的 知识 并 知道 汇编 器 所 做 的 工作 。 
我 们 需要 回顾 一 下 汇编 代码 与 机 器 代码 之 间 的 关系 。 

汇编 代码 是 机 器 代码 的 容易 记忆 的 形式 。 汇 编 代 码 使 用 名 称 而 不 是 二 进 制 代码 来 表示 操作 ， 
存储 地 址 也 用 名 称 来 表示 。 下 边 是 一 个 典型 的 汇编 指令 序列 : 


MOV a, R1 
ADD #2, R1 (1-6) 


这 段 代 码 将 地 址 a 中 的 内 容 移 到 寄存 器 R1， 然 后 与 常数 2 相 加 ( 将 寄存 器 R1 中 的 内 容 看 成 定 
点 数 加 以 处 理 )， 最 后 将 结果 存 人 地 址 b。 这 上 段 程序 计算 了 b:=a+2。 
汇编 语言 也 使 用 宏 工 具 ， 汇 编 语言 的 宏 工具 与 前 面 讨 论 过 的 那些 宏 预 处 理 器 类 似 。 


日 ”准确 地 说 应 为 “几乎 任何 字符 素 ”， 因 为 我 们 只 是 简单 地 自 左 向 右 扫 描 宏 引用 ， 而 且 只 异 在 模板 中 发 现 一 
个 匹配 胡 符 号 的 文本 ， 我 们 就 认为 前 面 的 字符 串 匹配 大 ， 因此， 如果 我 们 要 用 则 1 来 代 圭 ab ;cd， 我 们 就 会 
发 现 只 有 ab 与 #1 匹配 ， 而 cd 与 #2 匹配 。 
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1.4.3 两 遍 汇编 
最 简单 的 汇编 器 对 输入 汇编 源 程 序 文件 进行 两 遍 扫 描 ， 每 遍 读 输 入 文件 一 次 。 在 第 一 遍 扫 
描 中 ， 表 示 存 储 单元 的 所 有 标识 符 都 被 识别 出 来 并 存 人 符号 表 ( 汇编 器 的 符号 表 与 编译 器 的 符 


号 表 是 分 开 的 )。 一 个 标识 符 的 存储 单元 是 在 它 第 一 次 被 遇 到 标识 符 。 ”地 址 
时 分 配 的 。 例 如 , 读 和 人 (1-6) 后 ,符号 表 中 的 内 容 如 图 1-12 所 示 。 a 0 
在 图 1-12 中 ,我 们 假定 每 个 标识 符 占 四 个 字 节 〈 构成 一 个 字 ) ° 4 

的 存储 空间 ， 并 且 地 址 从 0 开始 分 配 。 图 1-12 汇编 器 的 符号 表 


在 第 二 饥 扫 描 中 ， 汇 编 器 再 一 次 从 头 扫描 输入 文件 。 这 一 次 ， 它 将 每 个 操作 符 翻 译 成 机 器 
语言 中 代表 相应 操作 的 二 进 制 位 序列 ， 将 代表 存储 单元 的 每 个 标识 符 翻 译 成 符号 表 中 该 标识 各 
的 地 址 。 

第 二 遍 扫描 的 输出 是 可 重 定位 的 机 器 代码 。 可 重 定 位 指 的 是 装 人 的 起 始 地 址 可 以 是 任意 的 
内 存单 元 工 。 也 就 是 说 ， 如 果 将 工 加 到 代码 的 所 有 地 址 上 ， 整 个 程序 对 所 有 存储 地 址 的 引用 都 
是 正确 的 。 为 此 ， 汇 编 器 的 输出 必须 说 明 哪些 指令 中 引用 了 可 重 定位 地 址 。 


例 1.3 假定 下 面 是 汇编 器 把 (1-6) 中 的 汇编 指令 翻译 成 的 机 器 代码 : 


0001 01 00 00000000 + 
0011 01 10 00000010 (1-7) 
0010 01 00 00000100 +» 


我 们 假想 了 一 个 很 小 的 指令 字 : 指令 字 的 前 四 位 是 指令 代码 ，0001、0010、0011 分 别 代表 
操作 装 和 人 、 存 储 、 加 。 装 和 人 表示 把 内 存单 元 中 的 数据 移 到 寄存 器 ， 存 储 表示 把 寄存 器 中 的 数据 
移 到 内 存单 元 ， 加 代表 加 运算 。 指 令 字 的 第 5、6 位 用 于 指定 寄存 器 。 在 上 面 的 三 条 指令 中 ,第 
5S、6 位 尼 为 01， 均 指 寄存 器 1。 指 令 字 的 第 7、8 位 是 “标志 ”位 ，00 代 表 普 通 的 地 址 模式 ， 即 
最 后 8 位 是 内 存 地 址 ; 10 代表“ 立即 ”模式 ， 即 最 后 8 位 是 操作 数 ， 这 个 模式 出 现在 (1-7) 的 第 
二 条 指令 中 。 

我 们 还 可 以 看 到 (1-7) 中 的 第 一 条 和 第 三 条 指令 中 都 含有 * 号 。* 号 是 重 定 位 标志 ， 与 可 重 
定位 机 器 代码 的 各 操作 数 有 关 。 假 定 存放 数据 的 地 址 空间 的 起 始 地 址 是 二， 有 * 号 的 地 方 表 示 
ZL 必须 加 到 那 条 指令 的 地 址 上 。 因 此 ， 如 果 工 = 00001111， 即 15， 那 么 a 和 b 的 地 址 分 别 是 
15 和 19，(1-7) 中 的 指令 将 变 为 

0001 01 00 00001111 


0011 01 10 00000010 (1-8) 
0010 01 00 00010011 


(1-8) 中 的 机 器 代码 是 绝对 (或 不 可 重 定位 ) 机 器 代码 。 注 意 ，(1-7) 的 第 二 条 指令 没有 * 号 与 之 
相连 ， 所 以 过 没 有 加 到 它 的 地 址 上 。 这 是 完全 正确 的 ， 因 为 这 8 位 代表 的 是 常数 2， 而 不 是 存储 
地 址 2。 口 
1.4.4 装配 器 和 连接 编辑 器 

通常 ， 装 配器 完成 程序 的 装 人 和 连接 编辑 两 项 功能 。 装 人 过 程 包括 读 人 可 重 定位 机 器 代码 ， 
修改 可 重 定位 地 址 ( 如 例 1.3 中 讨论 的 那样 )， 并 将 修改 后 的 指令 和 数据 放 到 内 存 中 适当 的 位 置 。 

连接 编辑 器 允许 我 们 将 多 个 可 重 定位 机 器 代码 的 文件 组 装 成 一 个 程序 。 这 些 可 重 定位 机 器 
代码 的 文件 可 以 是 多 次 编译 的 结果 ， 其 中 一 个 或 多 个 可 能 是 库 程 序 文件 。 库 程序 文件 是 由 系统 
提供 的 ， 可 以 被 任何 程序 使 用 。 
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如 果 这 些 可 重 定 位 机 器 代码 的 文件 以 某 种 有 用 的 方式 组 合 在 一 起 使 用 ， 则 就 可 能 出 现 外 部 
引用 ， 即 一 个 文件 中 的 代码 引用 另 一 个 文件 中 的 存储 单元 。 这 种 引用 可 以 是 对 定义 在 一 个 文件 
中 而 用 于 另 一 个 文件 的 数据 单元 的 引用 ， 或 者 是 对 出 现在 一 个 文件 的 代码 中 而 在 另 一 个 文件 的 
代码 中 被 调用 的 过 程 的 人口 点 的 引用 。 可 重 定位 的 机 器 代码 文件 必须 把 每 个 外 部 引用 的 数据 单 
元 或 者 指令 标号 的 信息 都 保存 在 符号 表 中 。 由 于 事先 并 不 知道 哪些 信息 将 被 外 部 引用 ， 所 以 ， 
事实 上 必须 将 汇编 器 的 整个 符号 表 作 为 可 重 定位 机 器 代码 的 一 部 分 。 

例如 ，(1-7) 中 的 代码 前 面 应 该 附 有 下 面 这 张 符号 表 


a 0 
b 4 


如 果 一 个 与 (1-7) 的 代码 文件 一 起 装配 的 文件 引用 了 bb， 由 该 引用 被 替代 为 4 加 上 (1-7) 的 代码 文 
件 的 数据 单元 被 重 定位 时 存储 地 址 的 偏 移 量 。 


1.5 编译 器 各 阶段 的 分 组 


1.3 节 介绍 的 编译 器 的 各 个 阶段 是 编译 器 的 逻辑 组 织 。 在 编译 器 的 实际 实现 中 ， 多 个 阶段 
的 任务 可 能 被 组 合 在 一 起 。 

1.5.1 前 端 与 后 端 

编译 的 多 个 阶段 可 以 分 为 前 端 和 后 端 两 个 大 的 阶段 。 前 端 包括 依赖 于 源 语 言 并 在 很 大 程度 
上 独立 于 目标 机 器 的 某 些 阶 段 或 者 某 些 阶 段 的 某 些 部 分 。 前 端 一 般 包 括 词法 分 析 、 语 法 分 析 、 
符号 表 的 建立 、 语 义 分 析 、 中 间 代 码 生成 以 及 相关 的 错误 处 理 。 相 当 一 部 分 代码 优化 工作 也 
在 前 端 完成 。 

后 端 包括 编译 器 中 依赖 于 目标 机 器 的 阶段 或 某 些 阶段 的 某 些 部 分 。 一 般 来 说 ， 后 端 完成 的 
任务 不 依赖 于 源 语言 而 只 依赖 于 中 间 语 言 。 后 端 主要 包括 代码 优化 、 代 码 生 成 以 及 相关 的 错误 
处 理 和 符号 表 操 作 。 

为 不 同 的 机 器 编写 相同 源 语言 的 编译 器 时 ， 人 们 通常 采取 如 下 的 方法 : 首先 为 所 有 的 机 器 
编写 相同 的 编译 器 前 端 或 者 采用 已 有 的 编译 器 前 端 ， 然 后 为 每 个 机 器 编写 编译 器 的 后 端 。 如 果 
编译 器 的 后 端 是 精心 设计 的 ， 对 于 不 同 的 机 器 不 需要 做 很 大 的 重新 设计 。 这 些 问 题 将 在 第 9 章 
中 讨论 。 我 们 可 以 将 不 同 的 源 语言 编译 成 同一 中 间 语 言 ， 对 不 同 的 前 端 使 用 相同 的 后 端 ， 从 而 
得 到 同一 机 器 上 的 不 同 编译 器 。 这 是 很 迷人 的 工作 。 但 是 ， 由 于 不 同 语言 的 着 眼 点 不 同 ， 这 方 
面 的 研究 只 取得 了 有 限 的 成 果 。 

1.5.2 编译 器 的 遍 

编译 的 若干 个 阶段 通常 是 以 一 遍 来 实现 的 ， 每 遍 读 一 次 输入 文件 、 产 生 一 个 输出 文件 。 编 
译 器 的 阶段 组 合 为 遍 的 方式 干 差 万 别 ， 因 此 我 们 趋向 于 按 阶段 而 不 是 按 遍 来 讨论 编译 器 。 第 12 
章 要 讨论 一 些 有 代表 性 的 编译 器 并 提 到 它们 的 阶段 被 组 合 为 迄 的 方式 。 

如 上 所 述 ， 多 个 编译 阶段 可 以 被 组 合 为 编译 的 一 遍 ， 并 且 每 一 遍 中 的 各 编译 阶段 的 工作 是 
相互 交错 的 。 例 如 ， 词 法 分 析 、 语 法 分 析 、 语 义 分 析 以 及 中 间 代 码 的 生成 可 以 被 组 合 为 一 遍 。 
这 样 ， 词 法 分 析 形 成 的 记号 流 可 以 被 直接 翻译 成 中 间 代 码 。 更 详细 地 说 ， 我 们 可 以 认为 该 编译 
遍 是 在 语法 分 析 器 的 管理 下 进行 的 。 语 法 分 析 器 根据 它 读 到 的 记号 识别 语法 结构 。 当 它 需 要 下 
一 个 记号 时 ， 它 通过 调用 词法 分 析 器 获得 所 需 的 记号 。 一 旦 语法 结构 找 出 来 了 ,语法 分 析 器 就 
调用 中 间 代 码 生 成 器 完成 语义 分 析 并 生成 中 间 代 码 的 一 部 分 。 第 2 章 给 出 了 一 个 以 这 种 方式 组 
织 的 编译 器 。 
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1.5.3 减少 编译 的 遍 数 

一 方面 ,我们 希望 编译 的 遍 数 越 少 越 好 ， 以 减少 读 写 中 间 文 件 的 时 间 开 销 。 另 一 方面 ， 如 
果 我 们 将 多 个 阶段 组 合 为 一 遍 ， 我 们 将 不 得 不 把 这 些 阶段 的 整个 程序 保存 在 内 存 中 ， 因 为 每 个 
阶段 需要 的 信息 的 顺序 可 能 与 前 面 各 阶段 产生 这 些 信 息 的 顺序 不 同 。 程 序 的 内 部 形式 可 能 远 远 
大 于 源 程序 或 者 目标 程序 。 所 以 ， 空 间 可 能 是 一 个 很 大 的 问题 。 

把 某 些 阶段 组 合 为 一 遍 存 在 一 些 问 题 。 例 如 ， 词 法 分 析 器 和 语法 分 析 器 间 的 接口 通常 被 限 
制 于 单个 记号 。 另 一 方面 ,在 中 间 表 示 完 全 生成 之 前 ,要 想 完 成 代码 生成 是 非常 困难 的 。 例 如 ， 
PL/I 和 Algol 68 之 类 的 语言 允许 变量 在 声明 之 前 被 使 用 。 这 样 ， 如 果 我 们 不 知道 一 个 结构 中 
的 变量 的 类 型 ， 就 不 能 生成 这 个 结构 的 代码 。 类 似 地 ， 多 数 的 语言 都 允许 向 前 跳 转 的 goto 语 句 。 
在 一 个 goto 语 句 转向 到 的 源 程序 语句 的 目标 代码 被 生成 之 前 ， 我 们 无 法 确定 这 个 goto 语 句 的 转 
移 地 址 。 

在 某 些 情 况 下 ， 可 以 为 某 些 尚 不 知晓 的 信息 留 下 空白 位 置 ， 待 获得 这 些 信 息 后 再 填 上 这 些 
空白 位 置 。 我 们 可 以 通过 使 用 “回填 ”技术 , 把 中 间 代 码 生成 和 目标 代码 生成 划 归 到 一 遍 中 。 
但 是 在 第 8 章 讲述 中 间 代 码 生 成 之 前 ， 我 们 不 能 清楚 地 解释 所 有 的 细节 。 我 们 可 以 使 用 汇编 器 
来 说 明 “ 回 填 ” 技 术 。 我 们 在 前 一 节 曾 讨论 过 一 个 两 遍 汇编 器 : 第 一 遍 识 别 出 表 示 内 存 位置 的 
标识 符 并 为 它们 分 配 存 储 地 址 ， 第 二 饥 用 地 址 代替 标识 符 。 

我 们 可 以 按 下 面 的 方式 把 汇编 器 的 两 遍 结 合 在 一 起 。 当 过 到 一 个 前 向 跳 转 的 汇编 语句 

GOTO target 
AY, 汇编 器 生成 一 个 框架 性 指令 ， 其 中 包含 了 Goro 的 机 器 操作 代码 以 及 为 target 的 地 址 保 


留 的 空白 位 置 。 所 有 为 Lcarget 的 地 址 保留 了 空白 位 置 的 指令 被 保存 在 一 个 列表 中 ， 该 列表 与 
符号 表 中 与 Farget 相 关 的 记录 相关 联 。 当 我 们 遇 到 指令 


target: MOV foobar, R1 





并 确定 了 target 的 值 ( 它 是 当前 指令 的 地 址 ) 时 ， 进 行 target 地 址 的 回填 ， 即 顺序 扫描 所 
有 需要 target 地 址 的 指令 的 列表 ， 用 target 的 地 址 代替 这 些 指令 的 地 址 域 中 的 空白 。 如 果 
具有 空白 地 址 的 指令 在 内 存 中 能 够 保存 到 所 有 目标 地 址 都 被 确定 下 来 ， 则 这 种 方法 很 容易 实现 。 

如 果 一 个 汇编 器 能 够 保证 它 的 所 有 输出 都 保存 在 内 存 中 ， 上 述 方法 是 合理 的 。 由 于 对 于 汇 
编 器 来 说 代码 的 中 间 表 示 和 最 终 表示 大 体 一 样 ， 长 度 也 基本 相同 ， 所 以 在 整个 汇编 程序 长 度 范 
围 内 的 回填 并 非 不 可 能 。 然 而 在 编译 器 中 ， 由 于 中 间 代 码 需要 消耗 大 量 空间 ， 我 们 必须 仔细 考 
虑 回填 的 范围 。 


1.6 编译 器 的 构造 工具 


与 任何 程序 员 一 样 ， 编 译 器 的 编写 者 使 用 调试 器 、 版 本 管理 器 、 描 述 器 〈profiler ) 等 软件 
工具 是 十 分 有 益 的 。 第 11 章 将 讨论 这 类 软件 工具 是 如 何 用 于 实现 编译 器 的 。 除 了 这 些 软件 开发 
工具 以 外 ， 其 他 辅助 实现 编译 器 各 个 阶段 的 专用 软件 工具 也 已 经 被 开发 出 来 。 本 节 简 单 地 介绍 
这 些 专用 软件 工具 ， 在 相应 的 章节 将 详细 讨论 它们 。 

当 第 一 批 编译 器 被 编写 出 来 不 入 ， 用 于 辅助 编译 器 编写 过 程 的 系统 就 出 现 了 。 这 些 系 统 通 
常 被 人 们 称 为 编译 器 的 编译 器 、 编 译 器 生成 器 或 者 翻译 器 编写 系统 。 多 数 这 样 的 系统 都 以 某 种 
特定 的 语言 模型 为 基础 ， 适 用 于 产生 类 似 于 该 语言 模型 的 语言 的 编译 器 。 

例如 ， 人 们 曾 提 出 一 个 迷人 的 假定 : 所 有 语言 的 词法 分 析 器 除了 对 特殊 的 关键 字 和 符号 的 
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识别 以 外 基本 都 是 一 样 的 。 实 际 上 ， 许 多 编译 器 的 编译 器 确实 生成 很 多 用 于 被 生成 编译 器 的 固 
定 的 词法 分 析 器 。 这 些 程序 的 区 别 仅仅 在 于 它们 识别 的 关键 字 表 不 同 。 关 键 字 表 是 需要 用 户 提 
供 的 全 部 信息 。 这 种 方法 是 有 效 的 ， 但 是 这 种 方法 不 能 用 于 识别 非 标 准 的 记号 ， 比 如 含有 非 字 
母 数字 符号 的 标识 符 。 

人 们 已 经 设计 出 了 一 些 自动 设计 编译 器 特定 构件 的 软件 工具 。 这 些 工具 使 用 了 特殊 的 语言 
来 说 明和 实现 特定 程序 设计 语言 构件 。 很 多 工具 使 用 了 非常 复杂 的 算法 。 成 功 的 工具 都 把 生成 
算法 的 细节 隐藏 起 来 而 且 所 产生 的 构件 很 容易 与 编译 器 的 其 他 构件 集成 在 一 起 。 下 面 是 一 些 有 
用 的 编译 器 的 构造 工具 。 

1. 分 析 器 生成 器 。 这 类 工具 生成 的 语法 分 析 器 一 般 都 以 上 下 文 无 关 文 法 为 基础 。 在 早期 的 
编译 器 中 ， 语 法 分 析 不 仅 占据 了 整个 编译 器 运行 时 间 的 相当 大 部 分 ， 而 且 在 编译 器 的 编写 工作 
中 也 占 了 相当 大 的 比重 。 现 在 ， 使 用 分 析 器 生成 器 工具 ， 这 个 阶段 已 经 非常 容易 实现 。 如 果 使 
用 4.7 节 中 描述 的 分 析 器 生成 器 ， 本 书 中 出 现 的 许多 “小 型 语言 "， 比 如 PIC(Kernighan[1982])， 
可 以 在 几 天 内 实现 。 许 多 分 析 器 生成 器 利用 了 功能 强大 的 分 析 算 法 。 这 些 算法 非常 复杂 ， 单 靠 
手工 是 无 法 完成 的 。 

2. 扫描 器 生成 器 。 这 类 工具 一 般 都 根据 以 正规 表达 式 为 基础 的 说 明 自 动 生 成 词法 分 析 器 。 
正规 表达 式 将 在 第 3 章 讨 论 。 这 类 工具 产生 的 词法 分 析 器 的 基础 组 织 结 构 等 效 于 有 穷 自 动机 。 
一 种 典型 的 扫描 器 生成 器 以 及 它 的 实现 将 在 3.5 节 和 3.8 节 讨论 。 

3. 语法 制导 翻译 引擎 。 这 类 工具 产生 一 系列 的 翻译 程序 ， 这 些 翻 译 程序 遍历 图 1-4 那 样 的 
分 析 树 ， 并 在 遍历 分 析 树 的 同时 产生 中 间 代 码 。 这 类 工具 的 基本 思想 是 为 分 析 树 的 每 个 节点 关 
联 一 个 或 多 个 “翻译 " ， 每 个 翻译 都 由 树 中 该 节点 的 邻 节点 上 的 翻译 来 定义 。 这 样 的 引擎 将 在 
第 5 章 中 讨论 。 

4. 自动 代码 生成 器 。 这 类 工具 以 一 个 规则 集合 为 输入 ， 这 些 规则 定义 了 中 间 语 言 的 每 个 操 
作 到 目标 机 器 的 机 器 语言 的 翻译 。 这 些 规则 必须 包含 足够 详尽 的 信息 以 便 我 们 能 够 处 理 数据 的 
不 同 存 取 方 法 ， 比 如 变量 可 能 存储 在 寄存 器 中 ， 也 可 能 在 内 存 的 固定 存储 单元 中 ， 还 可 能 存储 
在 堆栈 的 某 个 位 置 上 。 这 类 工具 使 用 的 基本 技术 是 “模板 匹配 "。 中 间 代 码 语句 被 表示 机 器 指 
令 序列 的 “模板 ”替代 。 由 于 变量 的 存放 位 置 多 种 多 样 (比如 可 存放 于 一 个 或 多 个 寄存 器 或 存 
放 于 内 存 )， 对 于 给 定 的 模板 集 存 在 很 多 可 能 的 方式 来 替代 中 间 人 代码。 这 样 ， 我 们 有 必要 选择 
一 种 好 的 替代 方式 使 得 在 编译 器 运行 时 不 会 产生 组 合 爆炸 。 这 类 工具 将 在 第 9 章 中 介绍 。 

5. 数据 流 引 掌 。 完 成 高 质量 代码 优化 所 需要 的 很 多 信息 都 包含 “数据 流 分 析 ”。 数 据 流 分 
析 收 集 有 关 值 如 何 从 程序 的 一 个 部 分 传递 到 程序 的 其 他 部 分 的 信息 。 不 同 的 任务 均 可 由 基本 相 
同 的 程序 来 完成 ， 只 需 用 户 提 供 中 间 代 码 语句 与 被 收集 信息 之 间 关 系 的 细节 。 这 类 工具 将 在 
10.11 节 中 介绍 。 


参考 文献 注释 


1962 年 Knuth[1962] 在 撰写 编译 器 编写 的 历史 时 就 说 过 , “在 这 一 领域 ,很 多 技术 是 由 很 
多 独立 工作 的 研究 者 同时 发 现 的 。” 他 还 提 到 确实 有 多 人 独立 地 发 现 了 “同一 技术 的 各 个 方面 ， 
而 且 经 过 多 年 的 精 雕 细 刻 已 经 变 成 了 完美 的 算法 。 这 一 点 还 没有 被 创始 人 们 意识 到 。” 为 编译 
技术 论 功 是 一 项 很 难 的 任务 。 本 书 的 参考 文献 注释 只 是 为 读者 进一步 研究 编译 技术 提供 帮助 。 
有 关 Fortran 语言 诞生 之 前 的 程序 设计 语言 和 编译 器 的 历史 可 以 参见 Knuth and Trabb 
Pardo[1977]。Wexelblat[1981] 包括 多 种 程序 设计 语言 历史 的 回顾 ， 这 些 回 顾 是 由 这 些 语言 能 
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开发 者 参与 撰写 的 。 

一 些 有 关 编 译 的 早期 基础 性 论文 已 被 收录 在 Rosen[1967] 和 Pollack[1972] 中 。1961 年 1 月 出 
WKY (Communications of the ACM》 给 出 了 当时 编译 器 编写 情况 的 一 个 综述 。Randell and 
Russell[1964] 介 绍 了 早期 Algol 60 编 译 器 的 细节 。 

由 20 世 纪 60 年 代 初 的 语法 研究 开始 ， 理 论 研究 对 编译 器 技术 的 开发 产生 了 深远 的 影响 ， 这 
种 影响 不 亚 于 它 在 计算 机 科学 的 其 他 领域 的 影响 。 语 法 分 析 的 魅力 或 许 早已 褪色 ， 但 编译 技术 


一 直 是 一 个 活跃 的 研究 课题 。 当 我 们 在 以 后 各 章 中 详细 考察 编译 技术 时 ， 我 们 就 会 清楚 地 看 到 
编译 技术 的 丰富 研究 成 果 。 


第 2 章 简单 的 一 遍 编 译 器 


这 一 章 是 本 书 第 3 章 到 第 8 章 的 内 容 简 介 。 本 章 通过 开发 一 个 把 中 级 表达 式 转换 成 后 缀 表达 
式 的 C 程 序 来 展示 一 些 基 本 编译 技术 。 本 章 重点 描述 编译 器 的 前 端 部 分 ， 即 词法 分 析 、 语 法 分 
析 和 中 间 代 码 生成 。 第 9 章 和 第 10 章 讲述 代码 生成 和 代码 优化 。 


2.1 概述 


程序 设计 语言 可 以 通过 描述 以 下 两 个 方面 来 定义 : 第 一 方面 是 程序 模式 ， 即 语言 的 语法 ; 
第 二 方面 是 程序 含义 ， 即 语言 的 语义 。 为 了 说 明 语言 的 语法 ,我们 介绍 一 种 广 为 使 用 的 表示 法 : 
上 下 文 无 关 文法 或 者 BNF (Backus-Naur 范式 )。 使 用 现 有 的 表示 法 描述 语言 的 语义 要 比 描述 
语言 的 语法 难得 多 。 因 此 ， 在 定义 语言 的 语义 时 ， 我 们 将 使 用 非 形式 化 方法 和 启发 性 实例 。 

上 下 文 无 关 文法 除了 可 以 用 于 定义 语言 的 语法 之 外 ， 还 可 用 于 指导 源 程序 的 翻译 。 面 向 语 
法 的 编译 技术 ， 如 语法 制导 翻译 技术 ， 对 于 组 织 编译 器 的 前 端 十 分 有 用 ， 本 章 将 广泛 应 用 语法 
制导 翻译 技术 。 

在 讨论 语法 制导 翻译 技术 的 过 程 中 ， 我 们 将 构造 一 个 把 中 缀 表达 式 转 换 成 后 缀 表达 式 的 编 
译 器 。 在 后 缀 表达 式 中 ， 操 作 符 出 现在 操作 数 的 后 面 。 例 如 ， 中 缀 表达 式 9-5+2 的 后 缀 表达 形 
式 为 95-2+。 我 们 可 以 使 用 一 个 堆栈 把 后 组 表达 式 直接 转换 成 计算 该 表达 式 的 计算 机 代码 。 作 
为 起 步 ， 我 们 先 构造 一 个 简单 的 程序 ， 这 个 程序 把 由 加 号 和 减 号 分 隔 的 数字 所 构成 的 表达 式 转 
换 成 后 级 形式 。 在 基本 概念 清晰 以 后 ， 我 们 扩展 该 程序 使 之 能 够 处 理 更 一 般 化 的 程序 设计 语言 
结构 。 本 书 中 每 个 功能 较 强 的 翻译 器 都 是 通过 扩展 功能 较 弱 的 翻译 器 而 得 到 的 。 

在 我 们 的 编译 器 里 ， 词 法 分 析 器 首先 把 输入 字符 流转 换 成 记号 流 。 然 后 ， 记 号 流 作为 下 一 
个 阶段 的 输入 ， 产 生源 程序 的 中 间 表 示 ， 这 个 过 程 如 图 2-1 所 示 。 图 中 的 “语法 制导 翻译 器 ” 
由 一 个 语法 分 析 器 和 一 个 中 间 代 码 生成 器 构成 。 我 们 之 所 以 把 由 数字 和 操作 符 组 成 的 表达 式 作 
为 起 点 是 为 了 使 最 初 的 词法 分 析 简 单 ， 即 每 个 输入 字符 就 是 一 个 记号 。 以 后 ， 我 们 将 扩展 该 语 
言 ， 使 其 包含 数 、 标 识 符 、 关 键 字 等 复杂 词法 结构 。 对 于 这 个 扩展 的 语言 ， 我 们 将 构造 一 个 词 
法 分 析 器 用 于 扫描 连续 的 输入 字符 并 将 其 转换 成 适当 的 记号 。 词 法 分 析 器 的 构造 将 在 第 3 章 详 


细 讨 论 。 | 
字符 流 记号 流 ie eee 
图 2-1 我 们 的 编译 器 前 端的 结构 
2.2 语法 定义 


本 节 介 绍 一 种 定义 语言 语法 的 表示 法 ， 称 为 上 下 文 无 关 文法 (简称 文法 )。 上 下 文 无 关 文 
法 将 贯穿 本 书 始末 ， 作 为 编译 器 前 端 定义 的 一 部 分 。 
一 个 语法 非常 自然 地 描述 了 许多 程序 设计 语言 结构 的 层次 结构 。 例 如 ，C 语 言 中 的 if-else 


[25 | 


18 第 2 


We 


语句 具有 如 下 形式 ; 
if ( 表达 式 ) 语句 else 语句 


也 就 是 说 ， 整 个 语句 是 由 关键 字 这 、 一 个 左 括号 、 一 个 表达 式 、 一 个 右 括号 、 一 条 语句 、 关 键 
F else 和 另外 一 条 语句 组 成 的 序列 ( 在 C 语 言 中 ， 没 有 关键 字 then )。 如 果 使 用 变量 expr 来 标 
识 表达 式 ， 使 用 变量 sim 来 标识 一 条 语句 ， 则 if-else 语句 的 构造 规则 可 以 表达 为 


stmt — if ( expr ) stmt else stmt (2-1) 


这 里 ， 箭 头 可 以 读 作 “可 以 具有 形式 ”。 这 样 的 规则 称 为 产生 式 〈production )。 在 一 个 产生 式 
中 ， 像 关键 字 证 和 括号 这 样 的 词法 元 素 称 为 记号 〈token )， 像 expr 和 stmt 这 样 的 变量 表示 一 
个 记号 序列 ， 并 称 之 为 非 终 结 符 〈nonterminal )。 

上 下 文 无 关 文 法 包含 如 下 四 个 部 分 : 

1. 一 个 记号 集合 ， 称 为 终结 符号 。 

2. 一 个 非 终 结 符 集合 。 

3. 一 个 产生 式 集合 。 每 个 产生 式 具 有 一 个 左 部 和 一 个 右 部 ， 左 部 和 右 部 由 箭头 连接 ， 左 部 
是 一 个 非 终结 符 。 右 部 是 记号 和 (或 ) 非 终结 符 序列 。 

4. 一 个 开始 符号 。 开 始 符号 是 一 个 指定 的 非 终结 符 。 

我 们 约定 ， 定 义 语法 时 只 需 列 出 文法 的 产生 式 ， 并 把 以 开始 符号 为 左 部 的 产生 式 列 在 最 前 
面 。 在 以 后 的 讨论 中 我 们 假设 ; 数字 、 类 似 于 <= 的 符号 、 类 似 于 while 的 黑体 字符 串 均 为 终结 
符 ， 斜 体 名 字 表 示 非 终结 符 ， 任 何 非 斜 体 的 名 字 或 者 符号 都 是 记号 ” 。 为 了 表示 上 的 方便 ， 我 
们 常 把 具有 相同 左 部 的 产生 式 合并 ， 写 成 一 个 产生 式 ， 其 左 部 为 所 有 产生 式 共 有 的 那个 非 终结 
符 ， 右 部 为 所 有 产生 式 右 部 的 组 合 ， 每 个 右 部 用 “|” 分 隔 。 “|” BER “BR”. 


例 2.1 本 章 的 例子 均 使 用 由 数字 、 加 号 和 减 号 组 成 的 表达 式 ， 如 9-5+2、3-1、7 等 。 因 
为 加 号 和 诚 号 必须 出 现在 两 个 数字 之 间 ， 我 们 称 这 样 的 表达 式 为 “用 加 号 和 减 号 分 隔 的 数字 序 
列 ”"。 下 面 的 文法 描述 了 这 些 表 达 式 的 语法 。 产 生 式 为 


list = list + digit (2-2) 
list > list ~ digit (2-3) 
list > digit (2-4) 


disit 0|11|12|3|14|1516|17|8|9 (2-5) 


EM MARR AT EA list 〈 列表 ) 的 三 个 产生 式 的 右 部 可 以 合并 成 : 

list > list + digit | lise ~ digit | digit 

按照 我 们 前 边 的 约定 ， 文 法 的 记号 是 下 列 符号 : 

+-0123456789 
斜体 词 list 和 digit 是 非 终 结 符 ，list 是 开始 非 终结 符 ， 因 为 它 所 对 应 的 产生 式 列 在 最 前 面 。 口 

如 果 一 个 非 终结 符 出 现在 一 个 产生 式 的 左 部 ， 该 产生 式 称 为 该 非 终 结 符 的 产生 式 。 记 号 串 
是 零 个 或 者 多 个 记号 的 序列 。 一 个 包含 零 个 记号 的 记号 串 称 为 室 嘻 ， 记 为 e。 

从 开始 符号 出 发 ， 反 复 替代 产生 式 中 的 非 终 结 符 ( 用 该 非 终 结 符 的 产生 式 的 右 部 )， 一 个 


O 单个 斜体 字母 在 第 4 章 详细 研究 文法 时 将 用 于 另外 的 目的 。 例 如 ， 我 们 将 用 X，Y 和 Z 来 表示 记号 或 非 终结 符 。 
任何 包含 两 个 或 多 个 字符 的 斜体 名 字 仍 然 代 表 非 终结 符 。 
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文法 可 产生 一 个 串 。 由 一 个 文法 的 开始 符号 产生 的 记号 串 形 成 了 该 文法 定义 的 语言 。 


例 2.2 ”由 例 2.1 的 文法 定义 的 语言 是 由 加 号 和 减 号 分 隔 的 数字 序列 。 

非 终结 符 digit 的 10 个 产生 式 表示 digit 可 以 代表 0, 1, …, 9 中 的 任何 记号 。 产 生 式 (2-4) 表 
明 单 个 数字 本 身 是 一 个 列表 。 产 生 式 (2-2) 和 (2-3) 表 示 : 当 我 们 碰 到 一 个 列表 后 面 跟着 一 个 加 号 
或 者 减 号 ， 随 后 是 另外 一 个 数字 ， 则 我 们 得 到 了 一 个 新 的 列表 。 

显然 ， 产 生 式 (2-2) 到 产生 式 (2-5) 足 以 定义 我 们 需要 的 语言 。 例 如 ， 我 们 可 以 按 下 面 的 方法 
推导 出 9-5+2 是 一 个 list: 

a) 由 于 9 是 一 个 digit, 根据 产生 式 (2-4)，9 hi 、 
是 一 个 list; N 8 

b) 由 于 9 是 一 个 Iist，5 是 一 个 digit, ， 根 据 list digit 
产生 式 (2-3)，9-5 是 一 个 list; abu 

c) 由 于 9-5 是 一 个 list，2 是 一 个 digii,， 
根据 产生 式 (2-2)，9-5+2 是 一 个 listo 9 - 5 + 2 

上 述 推 理 过 程 如 图 2-2 中 的 树 所 示 。 树 中 的 图 2-2 与 例 2.1 中 文法 对 应 的 9-5+2 的 分 析 树 
每 个 节点 用 一 个 文法 符号 标记 。 一 个 内 节点 和 它 的 所 有 子 节点 对 应 一 个 产生 式 。 内 节点 对 应 产 
生 式 的 左 部 ， 子 节点 对 应 产生 式 的 右 部 。 这 样 的 树 称 作 分 析 树 ， 后 面 将 进一步 详细 讨论 。 口 

例 2.3 Pascal 语言 的 begin-end 语句 块 (block ) 是 由 分 号 分 隔 的 语句 序列 。begin-end 语句 


块 的 文法 结构 类 似 于 例 2.1 中 的 列表 ， 差 别 仅 在 于 begin 和 end 之 间 人 允许 有 空 语句 。 我 们 从 以 下 
的 产生 式 开始 ， 开 发 begin-end 语句 块 的 文法 ; 


list 


block > begin opt_stmts end 
opt.stmts ~ stmt_list | € 
stmi_list > stmt_list ; stmt | stmt 


请 注意 ，opt_stmis 右 部 的 第 二 个 可 选项 e 表示 空 符号 串 ， 即 opt_semts WAR RRE, 
于 是 block 可 以 只 由 begin 和 end 这 两 个 记号 构成 。stmit_list 的 产生 式 类 似 于 例 2.1 中 list 的 产 
生 式 ， 分 号 对 应 于 算术 操作 符 ，stnt 对 应 于 digit。 我 们 还 没有 写 出 stm 的 产生 式 。 稍 后 ， 我 
们 将 讨论 不 同 语句 对 应 的 产生 式 ， 如 让 语句 、 赋 值 语句 等 等 。 口 
2.2.1 分 析 树 


分 析 树 描绘 了 如 何 从 文法 的 开始 符号 开始 推导 出 它 的 语言 中 的 一 个 语句 。 如 果 非 终结 符 4 
具有 一 个 产生 式 A 一 X7Z， 则 4 的 一 棵 分 析 树 如 右 图 所 示 ， 内 节 


A 
点 标记 为 4，A 的 三 个 子 节点 从 左 到 右 分 别 标记 为 X、Y AZ. IN 
形式 地 说 ， 给 定 一 个 上 下 文 无 关 文 法 ,分 析 树 是 具有 如 下 x Y Z 
特性 的 树 : 


1. 树 根 标记 为 开始 符号 。 

2. 每 个 叶 节点 由 记号 或 者 e 标记 。 

3. 每 个 内 节点 由 一 个 非 终结 符 标记 。 

4. 如 果 A 是 某 个 内 节点 的 非 终 结 符号 标记 ，Xi, X,, …, X, 是 该 节点 从 左 到 右 排 列 的 所 有 子 
节点 的 标记 ， 则 4A 一 XX2…X 是 一 个 产生 式 。 这 里 ，X1, X2,…, Xn 是 一 个 终结 符 或 非 终结 符 。 
对 于 4 一 e ， 分 析 树 中 标记 为 4 的 节点 只 有 一 个 标记 为 e 的 子 节点 。 


例 2.4 在 图 2-2 中 ， 根 节点 的 标记 是 例 2.1 中 文法 的 开始 符号 listo 它 的 子 节点 从 左 到 右 分 
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IA list, + 和 digit, TER, 


list 一 list + digit 


是 例 2.1 中 文法 的 一 个 产生 式 。 根 节点 的 左 子 节点 重复 着 相同 的 模式 ， 只 是 + 号 变 成 -号 。 图 中 
三 个 标记 为 digit 的 节点 都 有 一 个 标记 为 数字 的 子 节点 。 口 


一 棵 分 析 树 从 左 到 右 的 叶 节点 是 这 棵 分 析 树 生成 的 结果 。 分 析 树 生成 的 结果 是 由 根 节点 的 
非 终结 符 生成 或 导出 的 串 。 图 2-2 的 分 析 树 生成 的 串 是 9-5+2。 在 图 2-2 中 ， 所 有 的 叶 节 点 都 在 
最 底层 。 今 后 ， 我 们 不 必 如 此 排列 叶 节 点 。 任 何 树 的 叶 节 点 都 满足 从 左 到 右 排列 的 自然 顺序 ， 
即 如 果 a Mb RARER, Ha ZED 的 左 部 ， 则 a 和 a 的 所 有 后 代 都 在 b 和 45 的 所 有 后 
代 的 左 部 。 

使 用 分 析 树 的 概念 ， 我 们 可 以 定义 : 一 个 文法 生成 的 语言 是 它 的 某 个 分 析 树 生成 的 串 的 集 
合 。 为 给 定 的 记号 串 找 到 一 个 分 析 树 的 过 程 称 为 这 个 串 的 语法 分 析 (parsing )。 
2.2.2 二 义 性 

我 们 在 谈 及 根据 文法 建立 的 串 的 某 个 结构 时 必须 谨慎 。 一 棵 分 析 树 读 完 它 的 叶 节点 只 能 生 
成 惟一 的 一 个 串 ， 但 是 ， 一 个 文法 可 能 有 多 棵 分 析 树 生成 相同 的 记号 串 。 这 样 的 文法 称 为 具有 
二 义 性 的 文法 。 判 断 一 个 文法 是 否 具 有 二 义 性 ， 我 们 只 需 检查 是 否 存在 一 个 具有 多 棵 分 析 树 的 
记号 串 。 由 于 具有 多 棵 分 析 树 的 记号 串通 常 具 有 多 种 含义 ， 所 以 在 构造 程序 设计 语言 及 其 编译 
器 时 ， 我 们 需要 设计 无 二 义 性 文法 , 或 者 使 用 增加 了 额外 的 规则 解决 二 义 性 问题 的 二 义 性 文法 。 

例 2.5 ”如 果 不 区 分 例 2.1 中 的 digit 和 List， 例 2.1 中 的 文法 可 以 改写 成 如 下 形式 : 

string ~ string + string | string - string |011|213141516171819 
把 digit 和 list 的 概念 合成 一 个 非 终结 符 串 string 是 有 意义 的 ， 因 为 一 个 digit 是 list 的 特例 。 


从 图 2-3 中 可 以 看 到 ， 表 达 式 9-5+2 现 在 有 了 不 止 一 棵 分 析 树 ， 分 别 对 应 着 不 同 的 带 括 号 
表达 式 (9-5) +2 和 9- (5+2) 。 这 两 个 表达 式 的 值 是 不 同 的 ,分别 是 6 和 2。 例 2.1 的 文法 不 允许 





这 样 的 解释 。 o 
string string 
IN. . 
string + string string - string 
. | | /IN 
string ~ string 2 9 string + string 


5 5 
图 2-3 9-5+2 的 两 棵 分 析 树 
2.2.3 操作 符 的 结合 规则 
依照 惯例 ，9+5+2 和 (9+5)+2 相 等 ，9-5-2 和 (9-5) -2 相等。 在 上 述 表 达 式 中 ， 操 作 数 
5 左右 两 侧 都 有 操作 符 ， 需 要 决定 哪个 操作 符 使 用 该 操作 数 。 我 们 说 操作 符 “+” 是 左 结合 的 ， 
因为 当 一 个 操作 数 左右 两 侧 都 有 “+” 号 时 ， 它 将 被 其 左 部 操作 符 使 用 。 在 大 多 数 的 程序 设计 
语言 中 ， 加 、 减 、 乘 、 除 四 种 算术 操作 符 都 是 左 结合 的 。. 
某 些 常用 操作 符 是 右 结合 的 ， 如 指数 操作 。C 语 言 中 的 赋值 运算 操作 符 “=” 号 也 是 右 结 
合 的 。 例 如 ， 在 C 语 言 中 ， 表 示 式 a=b=c 等 价 于 a= (b=c)。 
由 右 结合 的 操作 符 构 成 的 串 ， 如 a=b=c， 可 以 由 如 下 文法 产生 : 


right > letter = right | letter 
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lener >a|b] -> |z 


图 2-4 给 出 了 左 结合 操作 符 “-” 的 分 析 树 和 右 结合 操作 符 “=” 的 分 析 树 的 比较 。 可 以 看 
到 ，9-5-2 分 析 树 向 左下 端 延伸 ， 而 a=b=c 的 分 析 树 向 右 下 端 延伸 。 


list right 


图 2-4 左 结合 操作 符 和 右 结合 操作 符 的 分 析 树 
2.2.4 操作 符 的 优先 级 . 

考虑 表达 式 9+5*2。 该 表达 式 有 两 种 可 能 的 解释 ， 即 (9+5) *2 或 者 9+ (5*2)。+ 号 和 * 号 
的 结合 性 无 法 解决 这 种 二 义 人 性 。 为 此 ， 当 不 止 一 种 操作 符 出 现 的 时 候 ， 我 们 需要 确定 操作 符 之 
间 的 优先 关系 。 

如 果 * 在 + 之 前 计算 ， 我 们 说 * 比 +: 具有 更 高 的 优先 级 。 在 普通 的 算术 运算 中 ， 乘 法 和 除法 
比 加 法 和 减法 具有 较 高 的 优先 级 。 因 此 ， 在 表达 式 9+5*2 和 9*5+2 中 ， 操 作 数 5 都 首先 参与 * 
运算 ， 分 别 等 价 于 表达 式 9+ (5*2) 和 (9*5)+2。 

表达 式 的 语法 。 算 本 表达 式 的 文法 可 以 根据 操作 符 的 结合 性 和 优先 级 表 来 构建 。 我 们 从 四 
个 常用 的 算术 操作 符 和 一 个 优先 级 表 开 始 说 起 。 在 优先 级 表 中 ， 操 作 符 按照 优先 级 递增 的 次 序 
排列 ， 相 同 优先 级 的 操作 符 出 现在 同一 行 上 : 


EBS: +- 
EBS: * 7 


我 们 使 用 两 个 非 终结 符 expr 和 term 分 别 表示 两 个 不 同 的 优先 级 层次 ， 使 用 另 一 个 非 终结 


符 factor 产生 表达 式 中 的 基本 单元 。 表 达 式 中 的 基本 单元 是 数字 和 带 括号 的 表达 式 。factor 的 
产生 式 如 下 : 


factor ~ digit | ( expr ) 


现在 我 们 考虑 具有 最 高 优先 级 的 二 元 操作 符 * 和 /。 由 于 这 些 操作 符 是 左 结合 的 ， 其 产生 
式 和 左 结合 的 list 的 产生 式 类 似 : 


term 一 term » factor 
| term / factor 
| factor 


类 似 地 ， expr 生成 由 其 他 操作 符 分 隔 的 term 表 : 
expr > expr + term 


expr - term 
| term 


算术 表达 式 的 最 终 文法 为 


expr = expr + term | expr - term term 


[33 | 
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term > term * factor | term / factor | factor 
factor ~> digit | ( expr ) 
该 文法 把 一 个 表达 式 看 作 是 由 + 号 和 -号 分 隔 的 term 表 ， 把 term 看 成 是 是 由 * 号 或 /号 分 隔 的 
factor 表 。 任 何 带 括号 的 表达 式 都 是 一 个 factor。 使 用 括号 ， 我们 可 以 构造 具有 任意 嵌 套 深度 
的 表达 式 ( 及 具有 任意 深度 的 分 析 树 )。 
语句 的 语法 。 在 多 数 语言 中 ， 我 们 可 以 使 用 关键 字 识 别 语句 。 除 了 赋值 语句 和 过 程 调用 语 
句 以外， 所 有 的 Pascal 语句 都 由 一 个 关键 字 开 始 。 一 些 Pascal 语句 可 以 用 下 面 的 二 义 性 文法 
来 定义 ， 其 中 id 表示 一 个 标识 符 : 
stmt > id := expr 
| if expr then stmt 
| if expr then stmt else stmt 


| while expr do stmt 
| begin opt_simts end 


使 用 例 2.3 中 的 产生 式 ， 非 终结 符 opt_stmrs 可 以 产生 一 个 由 分 号 隔 开 的 【可 以 是 空 的 ) 语 
句 表 。 


2.3 语法 制导 翻译 


为 了 翻译 程序 设计 语言 的 某 个 结构 ， 除 了 为 该 结构 生成 的 代码 以 外 ， 编 译 器 还 需要 保存 许 
多 人 信息。 例如， 编译 器 可 能 需要 知道 这 个 结构 的 类 型 、 目 标 代码 中 第 1 条 指令 的 位 置 、 生 成 的 
指令 个 数 等 等 。 我 们 抽象 地 称 这 些 信息 为 与 该 结构 相关 的 属性 。 属 性 可 以 表示 任意 的 信息 ， 如 
类 型 、 串 、 内 存 位 置 等 。 

本 节 给 出 一 种 称 为 语法 制导 定义 的 形式 化 方法 , 用 以 说 明 程序 设计 语言 中 各 种 结构 的 翻译 。 
一 个 语法 制导 定义 根据 与 其 语义 部 分 相关 联 的 属性 说 明了 程序 设计 语言 的 一 个 结构 的 翻译 。 在 
以 后 的 章节 里 ， 语 法 制导 定义 将 用 于 说 明 很 多 发 生 在 编译 器 前 端的 翻译 。 

我 们 还 要 介绍 一 个 更 加 过 程 化 的 概念 ， 叫 做 翻译 模式 ， 用 来 描述 翻译 过 程 。 本 章 我 们 将 翻 
PARN ERRATA, BSR AMER SEX RAAT 
2.3.1 后 缀 表示 

一 个 表达 式 E 的 后 组 表示 可 以 妇 纳 地 定义 如 下 : 

1. WR E 是 一 个 变量 或 者 常量 ， 则 E MARR ERR. 

2. WR E 是 形 如 E op E; 的 表达 式 ， 其 中 op 是 一 个 二 元 操作 符 ， 则 EE 的 后 缀 表示 是 Ei' Ey 
op, 这 里 E 和 Er 分 别 是 El 和 E 的 后 缀 表示 。 

3. UR E 是 形 如 (Ei ) 的 表达 式 ， 则 El 的 后 缀 表示 是 EE 的 后 缀 表示 。 

因为 一 个 表达 式 的 操作 符 的 位 置 和 每 个 操作 符 的 操作 数 的 个 数 ( 参数 数量 ) 只 允许 后 级 表 
达 式 的 一 种 解码 方式 ， 所 以 在 后 缀 表示 中 不 需要 括号 。 例 如 ，(9-5)+2 的 后 缀 表示 是 95-2+， 
9- (5+2) 的 后 缀 表示 是 952+-。 

2.3.2 语法 制导 定义 

语法 制导 定义 使 用 上 下 文 无 关 文法 来 说 明 输入 的 语法 结构 。 它 通过 每 个 文法 符号 和 一 个 属 
性 集合 相关 联 ， 通 过 每 一 个 产生 式 和 一 个 语义 规则 集合 相关 联 。 语 义 规 则 用 来 计算 与 产生 式 中 
出 现 的 符号 相关 联 的 属性 的 值 。 文 法 和 语义 规则 集合 构成 了 语法 制导 定义 。 

翻译 是 一 个 输入 到 输出 的 映射 。 每 个 输入 x 的 输出 用 下 面 的 方式 来 说 明 。 首先 ， 构 建 xz 的 
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分 析 树 。 假 定 分 析 树 的 节点 n 用 文法 符号 XX 标识 。 我 们 用 Xa 表示 节点 EX 的 属性 a 的 值 。 
An EB Xa 的 值 是 使 用 与 X 产 生 式 相关 联 的 属性 a 的 语义 规则 来 计算 的 。 每 个 节点 都 具有 
属性 值 的 分 析 树 称 为 注释 分 析 树 。 
2.3.3 综合 属性 

如 果 分 析 树 的 某 个 节点 的 属性 值 是 由 其 子 节 点 的 属性 值 确定 的 ， 则 我 们 称 该 属性 为 综合 属 
性 。 一 棵 分 析 树 的 所 有 综合 属性 值 的 计算 只 需要 分 析 树 的 一 次 自 底 向 上 遍历 。 本 章 只 使 用 综合 
属性 ， 继 承 属性 将 在 第 5 章 考 虑 。 


例 2.6 ”把 一 个 由 加 号 和 减 号 分 隔 的 数字 序列 组 成 的 表达 式 翻 译 成 后 缀 表示 的 语法 制导 定 
义 如 图 2-5 所 示 。 图 中 与 每 个 非 终 结 符 相关 联 的 是 一 个 具有 字符 串 值 的 属性 +， 属 性 上 表示 该 非 
终结 符 产生 的 表达 式 的 后 缀 表示。 

一 个 数字 的 后 级 形式 是 该 数字 本 身 。 
例如 ， 与 产生 式 term 一 9 相关 联 的 语义 expr => expr, + term 


expr expr, - term 


规则 定义 ; 当 该 产生 式 在 分 析 树 的 节点 expr > term 






语义 规则 
expry.t || terme || ‘+ 
expr,.¢ || term.t |°- 
ferm.t 





expr.t 
expr.t 
expr.t 


上 被 使 用 时 ，term.t 的 值 是 9。 当 产生 式 term 


ferm 


ferm.t 


ne 


term.t 


expr — term 被 应 用 时 ，term.t 的 值 成 为 . 
expr.t 的 值 。 term > 9 

产生 式 expr 一 expr, + term 导出 一 
个 包含 加 号 的 表达 式 。 加 操作 符 的 左 操 
作 数 由 expr' 给 出 ， 右 操作 数 由 term 给 出 。 产 生 式 中 expr, 的 下 标 是 为 了 区 别 产生 式 左右 两 侧 
的 expr。 与 这 个 产生 式 关 联 的 语义 规则 

expr.t := expr,.t | term.t |] '+’ 
定义 了 属性 exprt 值 的 计算 方式 ， 即 首先 连接 左右 操作 数 的 后 缀 形式 expri.t 和 termt, AIRE 
接 上 加 号 。 语 义 规则 中 的 操作 符 || 表示 字符 串 的 连接 。 

图 2-6 给 出 了 对 应 于 图 2-2 中 分 析 树 的 注释 分 析 树 。 每 个 节点 上 的 :属性 的 值 用 与 该 节点 的 产 
生 式 相 关联 的 语义 规则 计算 。 根 节点 的 属性 值 是 该 分 析 树 生成 的 串 的 后 缀 表示 。 口 


I 
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ferm.t : 


图 2-5 中 缀 到 前 级 翻译 的 语法 制导 定义 


expr.t = 95-2+ 
— ~~ 


expr.t = 95- term.t = 2 


expr. = 9 termt=5 


图 2-6 分 析 树 各 节点 的 属性 值 
例 2.7 ”假定 一 个 机 器 人 可 以 被 指示 从 当前 位 置 向 东 、 向 北 、 向 西 或 者 向 南 移动 一 步 。 这 
样 的 指令 序列 可 以 由 下 面 的 文法 产生 : 


seq + seq instr | begin 
instr > east | north | west | south 


根据 输入 


begin west south east east east north north 


4 E: 


机 器 人 产生 的 位 置 改变 如 图 2-7 所 示 。 (2,1) 
在 图 2-7 中 ， 每 个 位 置 用 (x, y) 对 标志 ， 其 north 

Hx Aly 分 别 表 示 从 起 点 开始 ， 向 东 和 向 北 的 (—1,0) west | begin 

步 数 。 如 果 + 是 负数 ， 则 机 器 人 在 起 始 位 置 向 south eo north 

西 移 动 。 如 果 y 是 负数 ， 则 机 器 人 在 起 始 位 置 

向 南 移动 。 (-1,-1) east east east (2,-1) 


我 们 来 构建 一 个 语法 制导 定义 ， 把 指令 序 图 27 机 器 人 的 位 置 的 跟踪 
列 翻译 成 机 器 人 的 位 置 。 我 们 要 使 用 两 个 属性 seq.x 和 segq.y 来 记录 非 终结 符 seg 生成 的 指令 序 
列 所 产生 的 位 置 。 最 初 ，sed 生成 begin, segx 和 sed.y 均 被 初始 化 为 0， 如 图 2-8 中 begin west 
south 的 分 析 树 的 最 左 内 节点 所 示 。 


Seq.x 一 一 | 
seq.y= -1 
seq x= -| instr.dx = 0 
seq.y =0 instr.dy = 一 | 
seq.x =0 instr.dx = — | 
， th 
seq.y =O instr.dy = 0 sou 
begin west 


图 2-8 begin west south 的 注释 分 析 树 


用 instrdx 和 instrdy RA instr 生成 的 单 
个 指令 所 产生 的 位 置 变化 。 例 如 ， 如 果 instr 生 








产生 式 






语义 规则 








| ， seg.x := 0 
成 west, WJ instr.dx = -1, instrdy = 0. (RIE seq — begin seqy := 0 
seq 是 由 一 个 序列 seq. 后 面 跟随 一 个 新 指令 所 seq.x seq,.X + instr.dx 


形成 的 ， 则 机 器 人 的 新 位 置 由 下 面 的 规则 给 出 : 


seq.x := seq,.x + instr.dx 

seq.y := seq,.y + instr.dy 

用 于 将 指令 序列 翻译 成 机 器 人 位 置 的 语法 
制导 定义 如 图 2-9 所 示 。 
2.3.4 深度 优先 遍历 

语法 制导 定义 没有 规定 分 析 树 中 属性 的 计 
算 顺 序 ， 只 是 在 计算 属性 atf, a 所 依赖 的 所 


seq > seq, instr 





now ai ay 











seq.y seq, .y + instr.dy 
， instr.dx := | 
instr — east : 
instr.dy := 0 
. instr.dx := 0 
instr 一 north ` 
instr.dy := 1 
， instr.dx := 一 | 
instr 一 west . 
instr.dy := 0 


instr.dx : 
instr.dy : 


图 2-9 机 器 人 位 置 的 语法 制导 定义 


instr 一 south 


有 其 他 属性 必须 已 经 进行 了 计算 。 满 足 这 个 要 求 的 任何 计算 顺序 都 是 可 以 接受 的 。 通 常 ， 在 遍 
历 一 个 分 析 树 的 时 候 ， 有 的 属性 节点 一 经 访问 就 必须 进行 计算 ， 有 的 属性 需要 其 所 有 的 子 节点 
都 被 访问 以 后 才能 计算 ， 有 的 属性 计算 发 生 在 访问 其 所 有 子 节点 的 过 程 中 。 属 性 值 的 计算 顺序 
将 在 第 5 章 详细 讨论 。 

本 章 所 有 的 翻译 都 是 通过 按照 一 种 预定 的 顺序 对 分 析 树 属性 的 语义 规则 进行 计算 来 实现 
的 。 树 的 遍历 是 指 从 根 开始 ， 以 某 种 顺序 访问 树 的 每 一 个 节点 。 本 章 使 用 图 2-10 定 义 的 深度 
优先 遍历 计算 语义 规则 。 它 从 根 开始 ， 从 左 到 右 递 归 访 问 每 个 节点 的 子 节点 ， 如 图 2-11 所 示 。 
一 旦 给 定 节 点 的 所 有 后 代 都 被 访问 ， 则 该 节点 的 语义 规则 将 被 计算 。 之 所 以 称 之 为 “深度 优 
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procedure visit(n: node); 
begin 
for n 的 每 个 子 节点 m， 从 左 到 右 do 


visit (m); 
计算 节点 n 处 的 语义 规则 


end 





图 2-10 树 的 深度 优先 遍历 图 2-11 树 的 深度 优先 遍历 示例 

先 ” 遍 历 ， 是 因为 它 尽 可 能 地 访问 一 个 节点 的 未 访问 的 子 节 点 ， 于 是 它 尽 可 能 快 地 访问 离 根 
最 远 的 节点 。 
2.3.5 翻译 模式 

本 章 的 其 余部 分 用 一 种 过 程 说 明 来 定义 翻译 。 一 个 翻译 模式 是 一 个 上 下 文 无 关 文 法 ， 其 中 
被 称 为 语义 动作 的 程序 段 被 府 和 人 到 产生 式 右 部 。 一 个 翻译 模式 类 似 于 语法 翻译 制导 定义 ， 只 是 
语义 规则 的 计算 顺序 是 显 式 给 出 的 。 一 个 语义 动作 的 执行 位 置 通过 用 括号 把 语义 动作 括 起 来 并 
将 其 放 在 产生 式 右 部 来 表示 ， 如 


rest — + term { print ('+')} rest, 


翻译 模式 对 于 由 基本 语法 产生 的 每 个 语句 x 都 产生 一 个 给 出， 方法 是 : 按照 x 的 分 析 树 的 
深度 优先 遍历 顺序 执行 语义 动作 。 我 们 来 考虑 具有 一 个 用 rest 标记 的 节点 的 分 析 树 (这 里 rest 
表示 rest 的 产生 式 )。 语 义 动作 { print (+ )}4E term TRZ JE, resti 子 树 之 前 执行 。 

当 我 们 给 一 个 翻译 模式 画 一 棵 分 析 树 的 时 候 ， 我 们 通过 为 语义 动作 构造 一 个 特殊 的 子 节点 
来 指出 语义 动作 ， 并 使 用 虚线 连接 到 其 产生 式 
的 节点 。 例 如 ， 表 示 rest 产生 式 的 分 析 树 和 语 一 一 T 
义 动作 如 图 2-12 所 示 。 语 义 动作 节点 没有 子 节点 ， * ferm {prinC+)} rest, 
使 得 该 节点 在 第 一 次 被 访问 到 的 时 候 便 被 执行 。 图 2-12 为 语义 动作 创建 的 特殊 的 叶 节点 
2.3.6 翻译 的 输出 

翻译 模式 的 语义 动作 把 翻译 的 输出 以 一 次 一 个 字符 或 一 个 字符 串 的 形式 写 人 一 个 文件 。 例 
如 ， 我 们 通过 每 次 写 9-5+2 中 一 个 字符 的 方式 把 表达 式 9-5+2 翻 译 成 95-2+ ， 而 不 需要 额外 的 
空间 存储 子 表达 式 的 翻译 。 当 输出 按照 这 种 方式 递增 地 被 创建 时 ， 写 字符 的 顺序 变 得 很 重要 。 

语义 制导 定义 具有 如 下 特性 : 每 个 产生 式 左 部 的 非 终结 符 的 翻译 是 将 该 产生 式 右 部 的 非 终 
结 符 的 翻译 按照 它们 在 右 部 出 现 的 次 序 连 接 起 来 得 到 的 ， 在 连接 过 程 中 可 能 还 需要 附加 (也 可 
能 不 需要 ) 一 些 额 外 的 串 。 具 有 这 样 特性 的 语义 制导 定义 称 之 为 简单 的 语义 制导 定义 。 例 如 ， 
考虑 图 2-5 中 的 第 一 个 产生 式 和 语法 制导 定义 的 语义 规则 : 


产生 式 语义 规则 
expr — expr, + term expr.t := expr,.t || term.t || ‘+’ (2-6) 


其 中 ，exprt 的 翻译 是 expr 的 翻译 、term 的 翻译 、+ 的 连接 。 请 注意 ， 在 产生 式 的 右 部 ，expm 
出 现在 term 的 前 面 。 


在 下 面 的 例子 中 ，term.t 和 rest.t 之 间 出 现 了 额外 的 串 : 


rest 
N 





产生 式 语义 规则 
rest > + term rest, rest.t := term.t ||'+' | rest,.t (2-7) 


在 产生 式 的 右 部 ， 非 终结 符 term 出 现在 rest 的 前 面 。 
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简单 语法 制导 定义 可 以 用 翻译 模式 来 实现 。 在 翻译 模式 中 ， 语 义 动 作 按照 定义 中 出 现 的 顺 
序 输出 额外 串 。 下 面 产生 式 中 的 语义 动作 分 别 和 输出 了 (2-6) 和 (2-7) 中 的 额外 串 : 


expr > expr, + term { print('+') } 
rest > + term { print('+')} rest, 


2.8 ”图 2-5 是 把 表达 式 翻 译 成 后 缀 形式 的 一 个 简单 的 语法 制导 定义 。 由 该 定义 得 到 的 翻 
译 模式 如 图 2-13 所 示 ， 带 语义 动作 的 9 - 


expr + term { print('+') } 





5+2 的 分 析 树 如 图 2-14 所 示 。 注 意 ， 尽 管 expr ~ term { print(’-') } 
图 2-6 和 图 2-14 描 述 的 是 相同 的 输入 -输出 gm { print(’0") ) 
映射 , 但 两 者 构造 翻译 的 过 程 是 不 相同 的 。 { print('1') } 
图 2-6 是 把 输出 附加 在 分 析 树 的 根 ， 而 图 Ei { print(’9") ] 
2-14 把 输出 递增 地 显示 出 来 。 

图 2-14 的 根 表 示 图 2-13 中 的 第 一 个 产 图 2-13 把 表达 式 翻 译 成 后 缀 形式 的 语义 动作 


生 式 。 在 深度 优先 遍历 中 ， 当 我 们 遍历 根 节点 的 最 左 子 树 时 ， 先 执行 左 操作 数 expr 的 子 树 中 
的 所 有 语义 动作 。 然 后 ， 我 们 访问 没有 语义 动作 的 叶 节 点 +。 接 下 来 ,我 们 执行 右 操作 数 term 
的 子 树 中 的 所 有 语义 动作 。 最 后 ， 执 行 特殊 节点 上 的 语义 动作 { print (+)}。 

由 于 term 产生 式 右 部 只 有 一 个 数字 ， 语 义 动作 只 显示 该 数字 。 产 生 式 expr term 不 产生 
输出 ， 头 两 个 产生 式 的 语义 动作 只 须 显 示 操 作 符 。 在 深度 优先 遍历 分 析 树 的 过 程 中 执行 图 2-14 
中 的 语义 动作 显示 95-2+。 

作为 一 般 规 则 ， 多 数 分 析 方法 都 以 一 种 “贪心 ”的 方式 从 左 到 右 地 处 理 输 入 ， 即 在 读 和 人 下 
一 个 记号 之 前 构造 尽 可 能 多 的 分 析 树 的 组 成 部 分 。 在 简单 翻译 模式 〈 由 简单 语义 制导 定义 得 到 
的 ) 中 ， 语 义 动 作 也 是 按照 从 左 到 右 的 顺序 执行 的 。 因 此 ， 实 现 简单 翻译 模式 时 ， 我 们 可 以 在 
语法 分 析 的 时 候 执 行 语义 动作 ， 完 全 没有 必要 构造 分 析 树 。 

expr 


a / NX ~ 
+ {print('+')} 


expr, term 、 
AA NU {print (C -')} z {print ('2')} 
expr term 、 
term 5 {print 5')} 
9 {print ('9")) 


图 2-14 把 9-5+2 翻 译 成 95-2+ 的 语义 动作 
2.4 语法 分 析 


语法 分 析 是 决定 一 个 记号 串 是 否 能 够 由 一 个 文法 产生 的 过 程 。 在 讨论 这 个 问题 时 ， 尽 管 纺 
译 器 可 能 没有 真正 构造 这 样 一 棵 分 析 树 ， 我 们 认为 构造 分 析 树 是 有 益 的 。 语 法 分 析 器 应 该 具有 
构造 分 析 树 的 能 力 ， 否 则 ， 不 能 保证 翻译 的 正确 性 。 

本 节 介 绍 一 种 语法 分 析 方法 ， 这 种 方法 可 以 用 来 构造 语法 制导 翻译 器 。 下 节 给 出 一 个 实现 图 
2-13 的 翻译 模式 的 完整 C 程 序 。 使 用 软件 工具 直接 从 翻译 模式 生成 翻译 器 是 构造 翻译 器 的 理想 方 
法 。4.9 节 将 详细 介绍 这 样 一 种 软件 工具 。 这 个 软件 工具 无 需 修改 就 可 以 实现 图 2-13 的 翻译 模式 。 

我 们 可 以 为 任何 文法 构造 语法 分 析 器 。 实 际 中 使 用 的 文法 一 般 都 具有 特定 的 形式 。 对 于 任 
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意 上 下 文 无 关 文 法 ,我 们 可 以 构造 一 个 时 间 复 杂 性 为 O) 的 语法 分 析 器 ， 即 在 O(n) 时 间 内 
完成 对 具有 n 个 记号 的 串 的 语法 分 析 。 但 是 ， 立 方 阶 的 时 间 代价 太 昂 贵 了 。 给 定 一 种 程序 设计 
语言 ， 通 常 可 以 构造 一 个 可 快速 分 析 的 文法 。 线 性 时 间 复 杂 性 算法 足以 分 析 实 际 中 出 现 的 所 有 
程序 设计 语言 。 程 序 设 计 语 言语 法 分 析 器 总 是 从 左 到 右 扫 描 输入 ， 每 次 超前 扫描 一 个 记号 。 

语法 分 析 方 法 可 以 分 为 两 类 : 自 顶 向 下 方法 和 自 底 向 上 方法 。 这 些 术语 是 指 构造 分 析 树 节 
点 的 顺序 。 前 者 按照 从 根 节点 到 叶 节 点 的 顺序 构造 分 析 树 ， 后 者 按照 从 叶 节 点 到 根 节点 的 顺序 
构造 分 析 树 。 自 顶 向 下 分 析 器 是 常用 的 语法 分 析 器 ， 其 原因 在 于 这 种 语法 分 析 器 可 以 很 容易 地 
通过 自 项 向 下 的 方法 手工 构造 出 来 。 然 而 ， 自 底 向 上 分 析 方法 可 以 处 理 大 量 文法 和 翻译 模式 ， 
所 以 直接 从 文法 产生 语法 分 析 器 的 软件 工具 通常 使 用 自 底 向 上 的 方法 。 
2.4.1 自 顶 向 下 语法 分 析 | 

我 们 通过 一 种 适 于 自 顶 向 下 语法 分 析 的 文法 来 介绍 自 顶 向 下 的 分 析 方 法 。 我 们 将 在 本 节 的 
后 面 考虑 构造 自 顶 向 下 语法 分 析 器 的 一 般 方法 。 下 面 的 文法 生成 一 个 Pascal 的 类 型 子 集 。 我 们 
用 记号 dotdot R “..”, dotdot 强调 该 字符 序列 是 一 个 基本 符号 单元 。 

type — simple 

| tid 
simple ! integer simple 1 of ope (2-8) 


| char 
| num dotdot num 


为 了 自 顶 向 下 地 构造 一 个 分 析 树 ， 我 们 从 标 有 开始 非 终结 符 的 根 节点 开始 ， 反 复 执 行 下 面 
两 步 ( 见 图 2-15 中 的 例子 ): 


1. 在 标 有 非 终结 符 4 的 节点 n， 选 择 4 的 一 个 产生 式 ， 用 该 产生 式 右 部 的 符号 构造 节点 n 
的 子 节 点 。 


2. 寻找 下 一 个 要 构造 子 树 的 节点 。 


a) type 
type 
b) /NS 
array [ simple J of type 
type 
—— N 
c) array { simple ] of type 


num dotdot num 


type 
-一 一 一 一 
d) array [ simple ] of type 
num dotdot num simple 
type 
-一 一 一 NS 
array [ simple l of type 
e) 
num dotdot num simple 
integer 


图 2-15 使 用 自 顶 向 下 方法 构造 分 析 树 的 步骤 
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对 于 某 些 文法 ， 上 面 的 步骤 可 以 通过 一 次 从 左 到 右 扫 描 输 入 串 来 实现 。 输 入 中 当前 被 扫描 
的 记号 通常 是 被 称 为 超前 扫描 符号 (lookahead symbol )。 以 下 我 们 也 称 超 前 扫描 符号 为 当前 符 
号 。 最 初 ， 超 前 扫描 符号 是 输入 串 的 第 一 个 记号 ， 即 最 左 端的 记号 。 图 2-16 说 明了 对 如 下 输入 
串 的 语法 分 析 过 程 : 


array [ num dotdot num } of integer 


最 初 ， 记 号 array 是 超前 扫描 符号 ， 分 析 树 的 已 知 部 分 只 有 标记 为 开始 非 终结 符 type 的 根 节 
点 ， 如 图 2-16a 所 示 。 我 们 的 目标 是 : 以 构造 出 来 的 分 析 树 所 产生 的 字符 串 与 输入 字符 串 匹 配 
的 方法 构造 分 析 树 的 其 余部 分 。 

为 了 与 输入 串 匹配 ， 图 2-16a 中 的 非 终结 符 type 必须 导出 一 个 以 超前 扫描 符号 array 开始 
的 串 。 在 文法 (2-8) 中 ， 只 有 一 个 以 type 为 左 部 的 产生 式 可 以 导出 这 样 的 串 ， 所 以 我 们 使 用 这 
个 产生 式 来 构造 根 节点 ype 的 子 节点 ， 并 在 子 节 点 上 标 上 产生 式 右 部 的 符号 。 

在 图 2-16 所 示 的 三 个 步骤 中 ， 都 有 两 个 箭头 。 一 个 指向 输入 串 中 超前 扫描 符号 ， 另 一 个 箭 
头 指向 分 析 树 当 前 被 考虑 的 节点 。 当 一 个 节点 的 子 节点 都 已 经 构造 完毕 ， 我 们 从 该 节点 的 最 左 
端子 节点 开始 继续 构造 分 析 树 的 其 余部 分 。 在 图 2-16b 中 ， 根 节点 的 子 节点 都 已 经 构造 完毕 ， 
下 一 个 要 考虑 的 节点 是 标记 为 array 的 最 左 端 的 子 节点 。 


























分 析 树 “ 
a) 

输入 array I num dotdot num J of integer 

type 
分 析 村 一 -下 一 
array [ simple ] of type 

b) 

输入 array [ num dotdot num ] of integer 








type 


Sy array ah 


[ simple ] of type 





输入 array [ num dotdot num ] of integer 








图 2-16 从 左 到 右 扫描 输入 串 时 的 自 顶 向 下 语法 分 析 


如 果 当 前 被 考查 的 分 析 树 的 节点 是 一 个 终结 符 ， 而 且 该 终结 符 与 超前 符号 匹配 ， 则 分 析 树 
的 箭头 和 输入 的 箭头 都 前 进一步 。 输 入 的 下 一 个 记号 成 为 新 的 超前 扫描 符号 ， 分 析 树 的 下 一 个 
子 节点 将 被 考查 。 在 图 2-16c 中 ， 分 析 树 中 的 箭头 指向 了 根 的 下 一 个 子 节点 ， 输 入 的 箭头 指向 
了 下 一 个 记号 “[”。 接 下 来 ， 分 析 树 的 箭头 指向 标记 非 终结 符 simple 的 子 节点 。 在 考虑 一 个 
标 有 非 终结 符 的 节点 时 ， 我 们 将 重复 为 这 个 非 终 结 符 选 择 一 个 适当 的 产生 式 的 过 程 。 

通常 ,为 非 终 结 符 选择 产生 式 可 能 会 涉及 “试验 和 错误 ”的 问题 ， 即 在 选择 产生 式 的 时 候 ， 
如 果 一 个 产生 式 不 合适 ， 我 们 将 不 得 不 回 滴 ， 测 试 男 外 一 个 产生 式 。 一 个 产生 式 “ 不 适合 ”是 
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指使 用 了 该 产生 式 之 后 无 法 产生 与 输入 串 匹 配 的 分 析 树 。 下 面 我 们 介绍 预测 分 析 方 法 ， 在 这 种 
分 析 方 法 中 不 会 发 生 回溯 问题 。 
2.4.2 预测 分 析 法 

递归 下 降 分 析 法 是 一 种 自 顶 向 下 的 语法 分 析 方 法 ， 在 这 种 方法 中 ， 我 们 执行 一 组 递归 过 程 
来 处 理 输入 串 。 每 一 个 过 程 都 惟一 地 与 文法 的 一 个 非 终结 符 相 关联 。 这 里 ， 我 们 考虑 一 种 特殊 
的 递归 下 降 分 析 法 ， 称 为 预测 分 析 法 。 在 预测 分 析 法 中 ， 超 前 扫 找 符号 无 二 义 地 确定 了 为 每 个 
非 终结 符 选 择 的 过 程 。 处 理 输入 时 调用 的 过 程序 列 隐 式 地 定义 了 输入 串 的 分 析 树 。 

图 2-17 的 预测 语法 分 析 器 由 非 终结 符 type 的 过 程 、 非 终结 符 simple 的 过 程 和 一 个 称 为 
match 的 过 程 组 成 。 我 们 用 match 过 程 来 简化 type 过 程 和 simple 过 程 的 代码 。 如 果 变 量 上 和 超 
前 扫描 符号 匹配 ， 输 入 符 导 串 的 箭头 将 前 进一步 ， 指 向 下 一 个 输入 记号 。 因 此 ，match 过 程 改 
变 了 当前 被 扫描 的 输入 记号 lookahead 变量 的 值 。 


在 我 们 的 文法 中 ， 分 析 过 程 从 调用 开始 非 终结 符 type 的 过 程 开始 。 输 入 串 与 图 2-16 中 的 串 


ABTA], lookahead 初始 化 为 第 一 个 记号 array。 过 程 type 对 应 着 产生 式 type 一 array[simple] of 
type 的 右 部 执行 如 下 代码 : 


match (array); match (’ {'); simple, match(']'); match (of); type (2-9) 


注意 ， 产 生 式 type > array[simple] of type 右 部 的 每 个 终结 符 都 和 超前 扫描 符号 匹配 ， 而 每 个 
非 终结 符 都 产生 一 个 过 程 调用 。 


procedure match (t: token); 
begin 
if lookahead = t then 
lookahead := nexttoken 
else error 
end; 


procedure type ; 
begin 
if lookahead is in { integer, char, num } then 
simple 
else if lookahead = ‘t' then begin 
match ('t'); match (id) 
end 
else if lookahead = array then begin 
match (array); match (UY, simple; match('1'), match (of), type 
end 
else error 
end; 


procedure simple : 
begin 
if lookahead = integer then 
match (integer) 
else if lookahead = char then 
match (char) 
else if lookahead = num then begin 
match (num); match (dotdot); match (num) 
end 
else error 





图 2-17 预测 语法 分 析 器 的 伪 代 码 
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以 图 2-16 中 的 串 为 输入 ,在 array 和 [ 匹配 以 后 ， 超 前 扫描 符号 是 num。 这 时 ， 过 程 
simple 被 调用 ， 并 在 其 过 程 体 中 执行 如 下 代码 : 


match (num); match (dotdot); match (num) 


超前 扫描 符号 指导 产生 式 的 选择 。 如 果 产 生 式 的 右 部 由 一 个 记号 开始 ， 则 当 该 记号 与 超前 
扫描 符号 匹配 的 时 候 这 个 产生 式 被 选用 。 现 在 考虑 一 个 由 非 终结 符 开 始 的 产生 式 的 右 部 : 
type > simple (2-10) 


如 果 超 前 扫描 符号 可 以 由 simple 产生 ， 则 该 产生 式 被 选用 。 例 如 ， 在 执行 (2-9) 代 码 段 时 ， 
假设 当 控制 到 达 过 程 ype 的 调用 时 超前 扫描 符号 是 integer。 没 有 第 一 个 记号 是 integer 的 type 
产生 式 。 然 而 ， 第 一 个 记号 为 integer 的 simple 产生 式 是 存在 的 。 所 以 ， 产 生 式 (2-10) 通 过 调 
FAW simple 来 使 用 。 

预测 分 析 依 赖 于 产生 式 右 部 产生 的 第 一 个 符号 是 什么 。 更 精确 地 说 , 令 @ 是 非 终结 符 A 
的 某 产生 式 的 右 部 。 EX FIRSTO 是 作为 由 产生 的 一 个 或 多 个 串 的 第 一 个 符号 出 现 的 集合 。 
如 果 o 是 e 或 者 可 以 产生 e ， 则 e 也 属于 FIRSTO) ” 。 例 如 : 





FIRST(simple) = { integer, char, num } 
FIRST(t id) = { t} 
FIRST(array [ simple ] of type) = { array } 


实际 上 ， 许 多 产生 式 的 右 部 都 由 记号 开始 ， 从 而 简化 了 FIRST 集 合 的 构造 。 计 算 FIRST 的 
算法 在 4.4 节 中 给 出 。 

如 果 有 两 个 产生 式 Ao 和 A 一 B 可 供 选用 ， 则 必须 考虑 相应 的 FIRST RA. FAM 
递归 下 降 分 析 方 法 要 求 FIRST(a] 和 FIRST(B) 不 相交 。 这 样 超前 扫描 符号 就 可 以 选择 正确 的 过 
程 去 执行 。 如 果 超 前 扫描 符号 在 FIRSTO) 集合 中 ， 则 使 用 w， 和 否则， 如 果 超 前 扫描 符号 在 
FIRST(B) 中 ， 则 使 用 8。 

2.4.3 何 时 使 用 e 产生 式 

右 部 是 e 的 产生 式 称 为 e 产生 式 ， 需 要 特殊 处 理 。 当 没有 其 他 产生 式 可 用 的 时 候 ， 递 归 下 

降 语 法 分 析 器 把 e 产生 式 作为 默认 产生 式 使 用 。 例 如 ， 考 虑 下 面 的 产生 式 : 


stmt — begin opt_stmts end 
opt_stmts — stmt_list | € 


当 分 析 到 opt_stmts 时 ， 如 果 超前 扫描 符号 没有 在 FIRST(stmt_list) 集合 中 ， 则 使 用 e 产生 式 。 
如 果 超 前 扫描 符号 是 end， 这 种 选择 是 正确 的 ， 除 了 end 之 外 的 任何 超前 扫描 符号 都 将 导致 一 
个 错误 ， 可 以 在 stm 的 语法 分 析 中 检测 到 。 
2.4.4 设计 一 个 预测 语法 分 析 器 

预测 语法 分 析 器 是 一 个 由 多 个 过 程 组 成 的 程序 ， 每 个 过 程 对 应 一 个 非 终结 符 。 每 个 过 程 完 
成 如 下 两 项 任务 : 

1. 检查 超前 扫描 符号 ， 决 定 使 用 哪个 产生 式 。 如 果 超 前 扫描 符号 在 FIRSTO) 中 ， 则 选择 
使 用 右 部 为 o 的 产生 式 。 对 于 任何 超前 扫描 符号 ， 如 果 产 生 式 右 部 存在 冲突 ， 那 么 我 们 不 能 

O 右 部 带 有 4 的 产生 式 将 使 确定 一 个 非 终结 符 所 产生 的 第 一 个 符号 的 工作 复杂 化 。 例 如 ， 如 果 非 终结 符 8 能 


导出 空 串 ， 而 且 存在 产生 式 4 一 BC， 那 么 由 C 所 产生 的 第 一 个 符号 还 可 以 是 A 所 产生 的 第 一 个 符号 。 如 
果 C 也 可 以 产生 e ， 则 FIRST(A) 和 FIRST(BC) 均 包 含 € 。 
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在 这 种 文法 上 使 用 这 种 分 析 方 式 。 如 果 超 前 扫描 符号 不 在 任何 其 他 右 部 的 FIRST RA, A 
部 具有 的 产生 式 将 被 使 用 。 

2. 过 程 通过 模仿 其 右 部 来 使 用 一 个 产生 式 。 一 个 非 终结 符 导致 该 非 终结 符 对 应 的 过 程 被 调 
用 。 :个 与 超前 扫描 符号 匹配 的 记号 导致 下 一 个 输入 记号 被 读 人 。 如 果 在 某 个 点 上 ,产生 式 的 
记号 与 超前 扫描 符号 不 匹配 ， 则 报告 出 错 。 图 2-17 是 对 文法 (2-8) 应 用 这 些 规 则 的 结果 。 

类 似 于 通过 扩展 文法 来 形成 一 个 翻译 模式 ， 我 们 也 可 以 通过 扩展 预测 语法 分 析 器 来 形成 一 
个 语法 制导 翻译 器 。 实 现 此 目的 的 算法 在 5.5$ 节 中 给 出 。 因 为 本 章 实现 的 翻译 模式 不 涉及 非 终 
结 符 的 属性 ， 下 面 仅 给 出 满足 当前 要 求 的 构造 方法 : 

1. 构造 一 个 预测 语法 分 析 器 ， 忽 略 产生 式 中 的 语义 动作 。 

2. 把 翻译 模式 中 的 语义 动作 拷贝 到 语法 分 析 器 。 如 果 一 个 语义 动作 出 现在 产生 式 p 的 文法 
符号 X 的 后 面 ， 则 该 语义 动作 被 拷贝 到 实现 X 的 代码 后 面 。 否 则 ， 如 果 语义 动作 出 现在 一 个 产 
生 式 的 开始 ， 则 该 语义 动作 被 拷贝 在 该 产生 式 的 实现 代码 的 最 前 面 。 

我 们 将 在 下 一 节 构 造 这 样 一 个 翻译 器 。 

2.4.5 FABIA 

递归 下 降 语法 分 析 器 很 可 能 造成 无 限 循 环 。 当 出 现下 面 这 样 一 个 左 递 归 产 生 式 时 ， 无 限 循 

环 就 会 出 现 : 


expr > expr + term 


在 这 里 ， 产 生 式 右 部 的 最 左 符号 和 产生 式 左 部 的 非 终结 符 是 相同 的 。 假 定 expr 对 应 的 过 程 要 
使 用 这 个 产生 式 。 因 为 右 部 是 由 expr 开始 的 ， 所 以 expr 过 程 被 递归 调用 ， 出 现 了 无 限 循环 。 
注意 ， 只 有 右 部 终结 符 与 超前 扫描 符号 匹配 时 ， 超 前 扫描 符号 才 会 发 生 改 变 。 因 为 产生 式 是 以 
非 终 结 符 expr 开始 的 ， 输 入 符号 在 递归 调用 期 间 没 有 机 会 改变 ， 所 以 导致 无 限 循环 。 

通过 重 写 与 递归 相关 的 产生 式 ， 我 们 可 以 消除 左 递归 产生 式 。 考 虑 下 面 非 终结 符 4 的 两 个 
产生 式 : 

A-Aa|B 


这 里 a ALB 是 不 以 A 开始 的 终结 符 和 非 终 结 符 序列 。 例 如 ， 在 产生 式 


expr > expr + term | term 





rH, A = expr, Q = + term, B = termo 

因为 产生 式 A 一 AQ 的 右 部 最 左面 的 符号 是 A 自身 ， 因 此 A 是 堪 递归 产生 式 。 重 复 应 用 这 
NFER, 在 4 的 右 部 产生 一 个 0 的 序列 ， 如 图 2-18a。 当 4 最 终 由 6B 替换 时 ，B 后 面 跟着 0 个 
或 者 多 个 a 的 序列 。 

同样 的 结果 可 通过 以 如 下 方式 改写 产生 式 得 到 ( 如 图 2-18b 所 示 ): 

Rook |e Q- 
这 里 ，R 是 一 个 新 的 非 终 结 符 。 产 生 式 R_*aR 以 R 自身 作为 产生 式 右 部 最 后 一 个 符号 ， 因 而 是 
右 递归 的 。 右 递归 产生 式 导 致 向 右 下 侧 延 伸 的 分 析 树 ， 如 图 2-18b 所 示 。 向 右 下 侧 延伸 的 分 析 
树 使 得 包含 左 结合 操作 符 表达 式 的 翻译 变 得 十 分 困难 。 不 过 ， 在 下 一 节 我 们 可 以 看 到 ， 通 过 基 
于 右 递归 文法 的 翻译 模式 的 仔细 设计 ， 可 以 将 表达 式 正确 翻译 成 后 级 形式 。 

在 第 4 章 ， 我 们 将 考虑 更 一 般 的 左 递归 形式 ， 而 且 讨论 如 何 从 一 个 文法 中 消除 所 有 左 递归 。 
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a) b) 
图 2-18 产生 一 个 串 的 左 递归 和 右 递 归 方 式 


2.5 简单 表达 式 的 翻译 器 


使 用 前 面 三 节 介 绍 的 技术 ， 我 们 可 以 用 C 语 言 编写 一 个 语法 制导 翻译 器 ， 这 个 翻译 器 可 以 
把 算术 表达 式 翻译 成 后 缀 形式 。 为 了 使 最 初 的 程序 比较 小 而 且 易 于 理解 ， 我 们 从 最 简单 的 表达 
式 开始 ， 即 由 加 号 和 减 号 分 隔 的 由 数字 构成 的 表达 式 。 在 随后 的 两 节 中 ， 我 们 将 使 其 扩展 为 包 
括 数字 、 标 识 符 和 其 他 操作 符 。 由 于 表达 式 出 现在 许多 程序 设计 语言 中 ， 详 细 地 研究 一 下 它们 
的 翻译 问题 是 很 有 价值 的 。 

一 个 语法 制导 翻译 模式 可 以 作为 一 个 翻译 


A wee ` 
| ~ 


R 
| OR 

| 
€ 





expr + term { print('+') } 





句 的 规范 。 我 们 用 图 2-19 中 的 模式 作为 要 实现 expr - term { print(‘-') } 
的 翻译 的 定义 。 通 常 ， 一 个 给 定 翻译 模式 的 文 term Linton) ) 
法 在 能 够 被 预测 语法 分 析 器 分 析 之 前 需要 加 以 To } 
修改 。 图 2-19 给 出 的 模式 的 文法 是 左 递归 的 ， = 

如 上 节 所 述 。 预 测 语法 分 析 器 不 能 处 理 左 递归 {prim (C9) } 
文法 。 我 们 可 以 通过 消除 左 递 归 得 到 一 个 适用 图 2-19 中 缀 到 后 缀 翻译 器 的 初始 说 明 


于 预测 递归 下 降 编 详 器 的 文法 。 
2.5.1 抽象 语法 和 具体 语法 
为 了 便于 理解 ， 我 们 从 抽象 语法 树 开 始 讨论 一 个 输入 串 的 翻译 。 在 一 个 抽象 语法 树 中 ， 每 
个 节点 表示 一 个 操作 符 ， 该 节点 的 子 节点 表示 操作 数 。 与 此 相对 应 ， 分 析 树 称 为 具体 语法 树 ， 
相应 的 文法 称 作 有 具体 语法 。 抽 象 语法 树 (或 简称 语法 树 ) 与 分 析 树 是 不 同 的 。 因 为 形式 上 的 差 
别 (不 影响 翻译 ) 没有 出 现在 语法 树 中 ， 所 以 抽象 语法 树 与 分 析 树 有 所 不 同 。 . 
例如 ，9-5+2 的 语法 树 如 图 2-20 所 示 。+ 和 -具有 相同 的 优先 级 ， 相 同 优先 级 的 操作 符 从 左 
到 右 进行 计算 ， 因 此 9-5 被 组 成 一 个 子 表达 式 。 将 图 2-2 的 分 


析 树 与 图 2.20 相 比 ， 我 们 可 以 看 到 。 在 语法 树 中 ， 操 作 符 都 是 ZN, 
内 节点 ; 在 分 析 树 中 ， 操 作 符 皆 为 叶 节 点 。 了 人 
我 们 希望 翻译 模式 所 基于 的 文法 的 分 析 树 尽 可 能 与 语法 树 j 5 


相同 。 图 2-19 中 文法 的 子 表达 式 分 组 与 语法 树 中 的 分 组 是 相似 E7 osaa 

的 。 然 而 ， 图 2-19 中 的 文法 是 左 递 归 的 ， 不 适 于 预测 分 析 。 我 们 似乎 遇 到 了 一 个 矛盾 : 一 方面 ， 
我 们 需要 一 个 便于 分 析 的 文法 ; 另 一 方面 ， 为 了 便于 翻译 ， 我 们 又 需要 一 个 不 同 的 文法 。 最 明 
显 的 解决 方法 是 消除 左 递归 。 不 过 ， 我 们 必须 小 心 行事 ， 如 下 面 的 例子 所 示 。 


例 2.9 下 面 的 文法 不 适合 将 表达 式 翻译 成 后 缀 形式 ， 尽 管 它 和 图 2-19 产 生 相 同 的 语言 
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且 能 够 用 于 递归 下 降 分 析 : 
expr — term rest 
rest > + expr | -epr | © 
ier ~011| .19 


这 个 文法 存在 如 下 问题 : resr 一 + expr 和 rest — -expr 产生 的 操作 符 的 操作 数 是 不 明显 的 。 用 
下 面 两 种 模式 从 exprt RAVE rest.t 者 是 无 法 接受 的 : 

rest 一 - expr { rest.t := '-' || expr.t } (2-12) 

rest = - expr { rest.t := expri || '-’ } (2-13) 
我 们 只 列 出 了 减 号 操作 符 的 产生 式 及 其 语义 动作 。9-5 的 正确 翻译 是 95-。 然 而 ， 如 果 我 们 使 
用 (2-12) 的 语义 动作 ， 则 减 号 出 现在 exprt 的 前 面 ，9-5 的 翻译 还 是 9-5， 这 显然 是 不 对 的 。 

男 一 方面 ， 如 果 我 们 使 用 (2-13) 以 及 相似 的 加 法 规则 ， 操 作 符 将 一 直 移 到 右 部 末尾 。 这 样 ， 
9-5+2 被 错误 地 翻译 成 952+ - ， 而 正确 的 翻译 应 该 是 95-2+。 口 
2.5.2 调整 翻译 模式 

图 2-18 中 的 左 递归 消除 技术 同样 可 以 应 用 到 包含 语义 动作 的 产生 式 。 我 们 将 在 5.5 节 扩展 这 
种 技术 ， 以 处 理 综合 属性 。 这 种 技术 将 产生 式 4 一 Aa I4Bhy 转 换 成 


A > yR 
R > aR | BR le 


STB ODER ATER ERP, RIETER IEPER ET YE, MESA = expr, 
a= +term{print ('+')}, B= -term{print ((-')}, y= term ， 则 上 面 的 转换 将 产生 (2-14) 中 的 翻译 模 
式 。 图 2-19 中 的 expr 产生 式 已 经 转换 成 (2-14) 中 expr 和 rest 的 产生 式 ， 其 中 rest 是 新 引入 的 非 
终结 符 。term 的 产生 式 是 图 2-19 中 term 产生 式 的 重复 。 注 意 ， 如 此 得 到 的 文法 与 例 2.9 中 的 文 
法 是 不 同 的 ， 正 是 这 种 不 同 才 可 能 得 到 我 们 预期 的 翻译 。 


expr 一 term rest 

rest > + term { print('+') } rest | ~ term { print('-') } rest | € 

term > O { print('0’) } 2.14 
term > 1 { print('1') } ( ) 


term > 9 { print('9') } 


图 2-21 说 明了 如 何 使 用 上 面 的 文法 把 9-5+2 翻 译 成 为 95-2+。 
expr 
term rest 
N 和 
9 { print('9') } - term { print('~") } rest 
5 { print(’5’)} + ~ term {prini('s")} > rest 
N 
2° {print('2')} € 


图 2-21 从 9-5+2 到 95-2+ 的 翻译 


2.5.3 AER expr. term 和 rest 的 过 程 
现在 我 们 用 C 语 言 利用 语法 制导 翻译 模式 (2-14) 实 现 翻 译 器 。 翻 译 器 的 重要 部 分 是 图 2-22 中 
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的 expr, term 和 rest 函数 的 C 代码 。 这 些 函数 实现 了 (2-14) 中 相应 的 非 终结 符 。 

match 函数 将 在 后 面 给 出 ， 它 是 图 2-17 中 match 过 程 的 C 代 码 。match 函数 把 给 定 的 记 
号 与 超前 扫描 符号 进行 匹配 ,然后 读 取 输 入 串 中 的 下 一 个 符号 , 并 将 其 作为 新 的 超前 扫描 符号 。 
由 于 在 我 们 的 语言 里 每 个 记号 都 是 单个 字符 ， 所 以 match 函数 是 通过 比较 字符 和 读 字符 操作 
来 实现 的 。 


















expr ( ) 





{ 
term(); rest(); 
} 
rest() 
{ 
if (lookahead == ’+’) { 
match(’+’); texm(); putchar(’+’); rest(); 
} 


‘else if (lookahead == ’-’) { 


match(‘-’); term(); putchar(’-’); rest(); 
} 
else ; 


} 
term( ) 
{ 

if (isdigit(lookahead)) { 


putchar (lookahead); match( lookahead); 
} 


else error(); 


图 2-22 非 终 结 符 expr、rest 和 term 的 函数 


有 些 人 不 熟悉 C 语 言 ， 因 而 在 这 里 我 们 介绍 一 下 C 语 言 和 其 他 Algol 派生 语言 ( 如 Pascal 语 
A) 之 间 的 显著 区 别 。C 语 言 编 写 的 程序 由 一 系列 函数 定义 组 成 ， 程 序 从 一 个 特殊 的 函数 main 
开始 执行 。 函 数 定义 不 可 以 嵌 套 。 函 数 的 输入 参数 由 函数 名 后 面 用 括号 括 起 来 的 参数 表 来 表示 。 
即使 函数 没有 参数 ， 括 起 参数 表 的 括号 也 是 必须 的 ， 因 此 我 们 写 expr () termi) Mrest ()。 
函数 间 的 通信 通过 传递 参数 或 者 访问 全 局 变量 来 实现 。 例 如 ， 函 数 Ecerm () 和 rest () 用 全 局 
标识 符 lookahead 来 传递 超前 扫描 符号 。 

C 和 Pascal 语言 用 右面 的 符号 进行 赋值 和 相等 测试 。 语言 | Pascal 语 言 

非 终结 符 函 数 模 拟 产 生 式 的 右 部 。 例 如 ， 产 生 式 expr 赋值 
一 term rest 是 通过 在 expr ( ) 函数 中 调用 term() 和 下 
rest () 来 实现 的 。 | 

作为 另外 一 个 例子 ， 如 果 超 前 扫描 符号 是 加 号 ， 函 数 rest () 使 用 (2-14) 中 rest 的 第 一 个 产 
生 式 ; 如 果 超 前 扫描 符号 是 减 号 , 则 使 用 rest 的 第 二 个 产生 式 ， 默认 情况 使 用 产生 式 rest 一 e。 
rest 的 第 一 个 产生 式 是 用 图 2-22 中 的 if 语句 实现 的 。 如 果 超 前 扫描 符号 是 +， 调 用 match 
('+ 来 匹配 加 号 。 在 调用 term() 以 后 ,调用 C 语 言 标准 库 例 程 putchar ('+ ') 输 出 加 符 
号 来 实现 语义 动作 。 因 为 rest 的 第 三 个 产生 式 的 右 部 是 e ， 所 以 在 rest () 中 最 后 一 个 else 
的 后 面 是 一 个 空 语句 。 
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term 的 10 个 产生 式 用 来 生成 10 个 数字 。 在 图 2-22 中 ， 例 程 isdigit 测试 超前 扫描 符号 是 
不 是 一 个 数字 。 如 果 测 试 成 功 ， 这 个 数字 首先 被 输出 ， 然 后 调用 match () 。 和 否则， 出 错 。( 注 
意 ， 函 数 mat ch () 改 变 超前 扫描 符号 ， 所 以 输出 一 定 要 在 调用 match () 之 前 进行 。) 在 给 出 
完整 的 程序 之 前 ， 我 们 先 来 优化 图 2-22 中 的 代码 。 
2.5.4 翻译 器 的 优化 

某 些 递 归 调 用 可 以 用 循环 替换 。 如 果 一 个 过 程 中 执行 的 最 后 一 条 语句 是 对 该 过 程 的 递归 调 
用 ， 则 该 调用 称 为 是 尾 递 归 的 。 例 如 ， 函 数 *est () 的 第 4 行 和 第 7 行 的 rest ( ) 调用 都 是 尾 递 
归 的 ， 因 为 执行 完 这 些 调用 之 后 控制 到 达 函 数 体 的 末尾 。 

我 们 可 以 通过 用 循环 代替 尾 递归 来 加 速 程序 。 对 于 没有 参数 的 过 程 ， 我 们 可 以 用 一 个 转移 
到 过 程 开 始 位 置 的 跳 转 语句 来 替换 尾 递归 。rest 过 程 的 代码 可 以 重 写 为 : 

rest() 

{ 

L: if (lookahead == ‘+’) { 

match(’+’)}; term(); putchar(’+’); goto L; 
} 


else if (lookahead == ’~’) { 
match(’-’); term(); putchar(’-’); goto L; 


else ; 


只 要 超前 扫描 符号 是 一 个 加 号 或 者 减 号 ，rest 过 程 匹 配 该 符号 ， 并 调用 term 去 匹配 一 
个 数字 ， 然 后 重复 这 一 过 程 。 注 意 ， 因 为 match 过 程 每 次 调用 的 时 候 都 删除 加 减 号 ， 所 以 这 
个 循环 只 有 在 加 减 导 和 数字 交替 出 现 的 时 候 才 发 生 。 图 2-22 中 的 代码 经 过 这 些 改变 之 后 ， 
rest 函数 仅 由 expr 函数 调用 ( 见 第 3 行 )。 因 此 ， 这 两 个 函数 可 以 合 二 为 一 ， 如 图 2-23 所 示 。 
在 C 语 言 中 ， 语 名 stimt 的 重复 执行 可 以 通过 下 面 的 语句 来 实现 : 


while(1) stmt 


因为 条 件 1 总 为 真 。 我 们 可 以 通过 执行 一 条 break 语句 退出 循环 。 图 2-23 中 的 代码 风格 允许 我 
们 方便 地 添加 其 他 操作 符 。 


expr () 
{ 
term(); 
while(1) 
if (lookahead == +) { 


match(’+’); term(); putchar(’+’); 


} 
else if (lookahead == ’~’) { 


match(’-’); term(); putchar(’-’); 


} 
else break; 





图 2-23 F2-22'HexprMrest MAHAR 
255 完整 程序 
上 述 翻 译 器 的 完整 C 语 言 程 序 如 图 2-24 所 示 。 第 1 行 用 #include 语 句 开 始 ， 用 来 加 载 


51 
52 


36 党 2 全 





<ctype.h> 文 件 。<ctype.h> 是 一 个 标准 例 程 文件 ， 其 中 包括 判定 函数 isqigit 的 代码 。 

由 单个 字符 构成 的 记号 由 标准 库 例 程 getcnar 提供 ，getcnar 读 人 输入 文件 中 的 下 一 
个 字符 。 不 过 ， 在 图 2-24 中 的 第 2 行 把 lookahead 声明 为 整 型 ， 使 之 能 够 存储 后 续 凡 节 中 将 
会 使 用 的 多 字符 记号 。 由 于 lookahead 在 所 有 的 函数 之 外 说 明 ， 它 是 一 个 可 以 由 图 2-24 第 2 
行 之 后 定义 的 所 有 函数 存 取 的 全 局 变量 。 








































#include <ctype.h> /* 加载 带 有 判定 函数 isdigit 的 文件 a7 


int lookahead; 


main() 
{ 

lookahead = getchar(); 

expr(); 

putchar(’\n’); /* 增加 尾部 换行 符 ”#/ 
} 


expr( ) 
{ 
term(); 
while(1) 
if (lookahea@ == ’+’) { 
match(’+’); term(); putchar(’+’); 
} 
else if (lookahead == ’-’) { 
match(’-’); term(); putchar(’-’); 
} 
else break; 
} 


term() 
{ 
if (isdigit(lookahead)) { 
putchar( lookahead} ; 
match( lookahead) ; 
} 
else error(); 
} 


match(t) 
int t; 





{ 
if (lookahead == t) 
lookahead = getchar(); 
else error(); 
} 


error () 
{ 


printf("syntax error\n"); /* 打印 错误 信息 «7 
exit(1); sx 停止 #7/ 





图 2-24 把 中 级 表 达 式 翻译 成 后 缀 表达 式 的 C 程 序 


RA match 检查 记号 是 否 匹 配 。 如 果 超 前 扫描 符号 匹配 ，match 读 入 下 一 个 输入 ， 否 则 
调用 出 错 例 程 ， 报 告 错误 信息 。 
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函数 error 使 用 标准 库 函 数 printf 语句 输出 信息 “syntax error”， 然 后 调用 
exit (1I) 终 止 程序 的 执行 。 


2.6 词法 分 析 


现在 我 们 为 上 节 的 翻译 器 增加 一 个 词法 分 析 器 。 词 法 分 析 器 读 入 输入 串 ， 将 其 转换 成 将 被 
语法 分 析 器 分 析 的 记号 流 。 回 想 一 下 2.2 节 的 文法 定义 ， 一 个 语言 的 语句 是 由 记号 串 构 成 的 。 
构成 一 个 记号 的 一 个 输入 字符 序列 称 为 词素 。 词 法 分 析 器 把 语法 分 析 器 和 记号 的 词素 表示 分 隔 
开 来 。 作 为 本 节 的 开始 ， 我 们 先 来 讨论 我 们 希望 词法 分 析 器 完成 的 一 些 功 能 。 

2.6.1 剔除 空白 符 和 注释 

上 一 节 介 绍 的 表达 式 翻 译 器 读 取 并 处 理 输入 中 的 每 一 个 字符 ， 所 以 像 空格 这 样 的 附加 字符 
将 导致 失败 。 许 多 语言 允许 “空白 符 ”( 空格 、 制 表 符 或 者 换行 符 ) 出 现在 记号 之 间 。 源 程序 
中 的 注释 一 般 都 被 语法 分 析 器 和 翻译 器 忽略， 所 以 它们 也 可 以 看 成 空白 符 。 

如 果 词 法 分 析 器 消除 了 空白 符 ， 语 法 分 析 器 就 不 必 再 考虑 空白 符 。 修 改 文 法 使 得 语法 中 包 
含 空白 符 的 做 法 实现 起 来 很 难 。 

2.6.2 常数 

在 一 个 表达 式 中 ， 任 何 一 个 允许 单个 数字 出 现 的 位 置 都 应 该 允许 任何 整 型 常数 出 现 。 因 为 
整 型 常数 是 一 个 数字 序列 ， 我 们 可 以 通过 在 文法 中 添加 产生 式 或 者 创建 常数 的 记号 使 整 型 常数 
成 为 合法 的 。 由 于 翻译 期 间 把 数 作为 一 个 单元 来 处 理 ， 收 集 数 字形 成 整数 这 一 任务 一 般 由 词法 
DT REE TEM o 

令 num 是 表示 整数 的 记号 。 当 一 个 数字 序列 出 现在 输入 流 中 时 ， 词 法 分 析 器 将 把 num 传 
递 给 语法 分 析 器 。 整 数 的 值 作为 记号 num 的 属性 值 传递 给 语法 分 析 器 。 从 逻辑 上 说 ， 词 法 分 
析 器 传递 记号 及 其 属性 值 给 语法 分 析 器 。 如 果 我 们 把 记号 和 它 的 属性 值 用 < > 括 起 来 作为 一 个 
元 组 ， 那 么 输入 31+28+59 就 可 以 写成 <num, 31> < +, > <num, 28> <+, > <num, 59>, ‘+’ & 
有 相应 的 属性 ， 所 以 元 组 的 第 2 个 分 量 〈 属性 ) 在 语法 分 析 中 没有 任何 作用 ,但 是 在 翻译 时 还 
是 需要 的 。 

2.6.3 识别 标识 符 和 关键 字 

程序 设计 语言 使 用 标识 符 作 为 变量 名 、 数 组 名 、 郴 数 名 和 一 些 其 他 的 语言 对 象 名 。 程 序 设 
计 语 言 的 文法 常 把 标识 符 作为 记号 处 理 。 基 于 这 类 文法 的 语法 分 析 器 在 输入 中 每 遇 到 一 个 标识 
符 都 赋予 它们 相同 的 记号 id。 例 如 ， 词 法 分 析 器 将 输入 


count = count + increment; (2-15) 
转换 成 记号 流 

id = id + id ; (2-16) 
这 个 记号 流 将 用 于 语法 分 析 。 


在 谈 及 输入 行 (2-15) 的 词法 分 析 时 ， 区 分 记号 id 和 与 这 个 记号 的 实例 相关 的 词素 count 和 
increment 之 间 的 不 同 是 很 有 用 的 。 翻 译 器 需要 知道 count 词素 形成 了 (2-16) 的 前 两 个 id 
的 实例 ，increment 词素 形成 了 第 3 个 id 的 实例 。 

当 输 入 流 中 出 现形 成 标识 符 的 词素 时 ， 我 们 需要 某 种 机 制 来 决定 该 词素 以 前 是 否 出 现 过 。 
如 第 1 章 中 所 述 ， 符 号 表 就 是 这 样 一 种 机 制 。 词 素 存储 在 符号 表 的 一 个 表 项 中 ， 而 指向 该 表 项 
的 指针 则 成 为 记号 id 的 一 个 属性 。 
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许多 程序 设计 语言 使 用 国定 的 字符 串 (Wbegin, end, if S4) 作为 标点 符号 标志 或 者 
某 种 结构 的 标识 。 这 些 字符 串 称 作 关键 字 ， 通 常 也 满足 形成 标识 符 的 规则 。 于 是 ， 我 们 还 需要 
一 种 机 制 来 决定 一 个 词素 何 时 形成 关键 字 何 时 形成 标识 符 。 如 果 将 关键 字 保留 ， 也 就 是 说 ， 如 
果 它 们 不 能 作为 标识 符 ， 这 个 问题 就 很 容易 解决 。 于 是 ， 只 有 字符 串 不 是 关键 字 时 它 才 形 成 标 
识 符 。 

如 果 相 同 的 字符 出 现在 多 个 记号 的 词素 中 ， 我 们 又 会 遇 到 记号 分 割 的 问题 。 例 如 ，Pascal 
中 的 <、<= 和 <> 中 都 包含 <。 有 效 地 识别 这 种 记号 的 技术 将 在 第 3 章 中 讨论 。 
2.6.4 词法 分 析 器 的 接口 

词法 分 析 器 介 于 语法 分 析 器 和 输入 流 之 间 ， 并 与 这 两 者 交互 ( 如 图 2-25 所 示 )。 词 法 分 析 
器 从 输入 串 读 字符 并 形成 词素 , 然后 将 词素 生成 的 记号 及 其 属性 值 传递 给 编译 器 的 下 一 个 阶段 。 
在 某 些 情况 下 , 词法 分 析 器 在 把 记号 传 给 语法 分 析 器 之 前 , 需要 从 输入 串 超前 地 读 入 一 些 字符 ， 
以 确定 需要 传递 给 语法 分 析 器 的 正确 记号 。 例 如 ，Pascal 的 词法 分 析 器 在 读 到 > 字符 时 需要 读 
和 人 下 一 个 字符 。 如 果 下 一 个 字符 是 =， 则 词法 分 析 器 把 >= 组 合 在 一 起 作为 形成 “大 于 等 于 ” 操 
作 符 记 号 的 词素 ; 否则 把 > 作为 形成 “大 于 ”操作 符 记号 的 词素 ， 并 且 词 法 分 析 器 已 经 多 读 了 
一 个 字符 。 多 读 人 的 字符 必须 退回 给 输入 流 ， 因 为 它 可 能 是 下 一 个 词素 的 开始 符号 。 


读 字 符 传递 记号 
(Cs 了 词法 分 析 器 | SAE avin 
meer 


图 2-25 在 输入 和 语法 分 析 器 之 间 插 入 词法 分 析 器 


词法 分 析 器 和 语法 分 析 器 形成 “生产 者 -消费 者 ”对 。 词 法 分 析 器 产生 记号 ， 语 法 分 析 器 
消费 记号 。 产 生 的 记号 在 被 消费 之 前 保存 在 记号 缓冲 区 中 。 两 者 的 交互 仅 受 缓 冲 区 大 小 的 限制 ， 
原因 是 : 当 缓 冲 区 满 时 ， 词 法 分 析 器 不 能 继续 产生 记号 ; 当 缓冲 区 空 时 ， 语 法 分 析 器 不 能 继续 
分 析 。 通 常 ， 缓 冲 区 只 能 存储 一 个 记号 。 在 这 种 情况 下 ， 二 者 之 间 的 交互 可 以 通过 下 面 的 方式 
简单 地 实现 ;使 词法 分 析 器 成 为 被 语法 分 析 器 调用 并 为 语法 分 析 器 返回 所 需 的 记号 的 过 程 。 

读 人 字符 和 退回 字符 操作 一 般 都 通过 建立 一 个 输入 缓冲 区 来 实现 。 编 译 器 每 次 把 一 组 字符 
读 人 缓冲 区 ， 用 一 个 指针 指向 当前 已 经 被 分 析 的 输入 部 分 。 如 果 需 要 退回 字符 ， 只 需 将 指针 向 
回 移动 。 为 了 能 够 给 出 详细 的 错误 信息 报告 ( 例如 ， 必 须 给 出 错误 出 现在 输入 串 的 位 置 )， 我 
们 需要 保存 输入 字符 。 输 入 字符 的 缓冲 可 以 提高 编译 器 的 效率 ， 每 次 读 一 组 字符 比 每 次 读 一 个 
字符 的 效率 高 。 输 入 缓冲 技术 在 3.2 节 讨论 。 

2.6.5 词法 分 析 器 

现在 我 们 为 2.5 节 的 表达 式 翻译 器 构造 一 个 简单 的 词法 分 析 器 。 词 法 分 析 器 的 目的 是 使 表 
达 式 中 只 允许 出 现 空白 符 和 由 多 个 数字 组 成 的 数 。 我 们 在 下 一 节 将 扩展 这 个 词法 分 析 器 ， 以 允 
许 表 达 式 中 出 现 标识 符 。 

图 2-26 说 明了 词法 分 析 器 ( 用 C 语 言 书写 的 函数 1exan ) 如 何 实现 图 2-25 中 的 交互 。 
getchar 和 ungetc 是 包含 文件 <stdio.h> 中 的 标准 例 程 ， 实 现 了 输入 串 的 缓冲 处 理 。 
lexan 分 别 调用 getchar 和 ungetc 来 实现 读 和 人 字符 和 推 回 字 符 。 设 c 是 字符 变量 ， 语 句 
c=getchar () 和 ungetc(c, stdin) 保 持 输 入 串 的 次 序 不 乱 。 函 数 getchar 的 调用 把 下 一 
个 输入 字符 赋值 给 c<，ungetc 推 回 c 中 的 字符 到 标准 输入 stdin. 

如 果实 现 编译 器 的 程序 设计 语言 不 允许 从 函数 返回 数据 结构 ， 则 记号 和 它 的 属性 必须 分 别 
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传递 。 函 数 1exan 返 回 记号 的 整数 编码 。 一 个 字符 的 记号 是 那个 字符 的 传统 整数 编码 。 对 
num 这 样 的 记号 ， 其 编码 可 以 用 大 于 任何 单个 字符 的 整数 编码 的 整数 进行 编码 ， 即 236。 为 了 
使 编码 修改 方 使 ， 我 们 使 用 符号 常量 NUM 作 为 num 的 整数 编码 。 在 Pascal 语言 中 ，NUM 与 其 
编码 的 关联 可 以 通过 const 声明 来 实现 。 在 C 语 言 中 ， 使 用 如 下 的 define 语句 令 其 表示 256: 
#define NUM 256。 如 果 在 输入 串 中 遇 到 一 个 数字 序列 ，lexan 函数 返回 NUM， 同 时 把 全 
局 变量 tokenval 设置 成 这 串 数字 的 值 。 例 如 ， 若 输入 串 中 7 后 面 跟 着 6， 则 tokenval 变量 
的 值 是 76。 


使 用 getchar () 
读 字符 








返回 记号 给 调用 者 


lexan (} 


词法 分 析 器 


使 用 ungektc(c，stain) 


推 回 c 


给 全 局 变量 赋值 为 属性 什 


图 2-26 实现 图 2-25 中 的 交互 


为 了 允许 数 出 现在 表达 式 中 ， 需 要 对 图 2-19 的 文法 做 一 点 修改 。 我 们 用 非 终结 符 factor 代 
替 单 个 的 数字 ， 并 引入 下 面 的 产生 式 和 语义 动作 : 


factor > ( expr ) 
| num { print(num.value) } 


图 2-27 中 factor 的 C 代 码 是 上 述 产生 式 的 直接 实现 。 如 果 lookahead 等 于 NUM， 属 性 
num. value 值 由 全 局 变量 tokenval 给 出 ， 语 义 动 作 由 标准 库 函 数 printf 完成 。printf 
的 第 一 个 变量 是 用 双 引 号 括 起 来 的 一 个 字符 串 ， 用 来 定义 后 面 要 输出 的 变量 的 格式 。 在 这 个 串 
中 ，%q 表示 输出 下 一 个 参数 的 十 进 制 表示 。 图 2-27 中 的 print’ 语句 输出 一 个 空格 ， 接 着 输 
出 tokenval 的 十 进 制 表 示 ， 再 输出 一 个 空格 。 


factor() 
{ 
if (lookahead == ’(’) { 


match(’(’); expr(); match(’)’); 
} 
else if (lookahead == NUM) { 


printf(" Xda ", tokenval); match (NUM); 


} 


else error(); 





图 2-27 操作 数 可 以 是 数 时 的 factor 的 C 代 码 


图 2-28 给 出 了 lexan 函数 的 实现 。 每 当 第 (8)~(26) 行 的 while 语句 体 被 执行 时 ， 第 (9) 条 语 
句 读 和 人 一 个 字符 到 变量 +。 如 果 字 符 是 空格 或 者 制 表 符 〈 即  \' )， 则 没有 记号 返回 给 语法 分 
析 器 ， 只 是 再 进行 一 次 while 循环 如 果 字 符 是 一 个 换行 符 ('\n ' )， 仍然 没有 记号 返回 给 语 
法 分 析 器 ， 只 是 将 全 局 变量 lineno 加 1。1ineno 用 来 记录 输入 的 行 数 ， 在 报错 时 用 来 指示 
出 错 行 号 以 帮助 程序 调试 者 定位 错误 。 

第 (14)~(23) 行 的 代码 用 于 读 入 一 列 数 字 。 文 件 <ctype.h> 中 的 函数 isdigit(t) 用 在 
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第 (14) 行 和 第 (17) 行 来 判定 一 个 输入 字符 t 是 否 是 数字 。 如 果 是 数字 ， 其 整 型 值 由 表达 式 t- '0 
给 出 (不论 ASCII 还 是 EBCDIC )。 对 于 其 他 字符 集 ， 该 转换 可 能 有 些 不 同 。 在 2.9 节 ， 该 词法 分 


析 器 将 被 加 入 到 表达 式 翻 详 


HE 





(I) #include <stdio.h> 
(2) #include <ctype.h> 


15 
= NONE; 


{ 


t = getchar(); 
if (t == % ’ ti t == Nt’) 


(3) int lineno = 
(4) int tokenval 
(5) int lexan() 
(6) 4 

(7) int t; 
(8) while(1)} 
(9) 

(10) 

qi) 

(12) else 

d3) 

(14) else 
(13) 

(16) 

(t7) 

(18) 

(19) 

(20) 

(21) 

(22) 

(23) } 
(24) else 
(25) 

(26) 





/+ 去 除 空格 和 制 表 符 */ 
if (t == ‘\n’) 
lineno = lineno + 1; 
if (isdigit(t)) { 
tokenval = t - ‘0’; 
t = getchar(); 
while (isdigit(t)) { 
tokenval = tokenval«10 + t-'0'; 
t = getchar(); 
} 
ungetc(t, stdin); 
return NUM; 


{ 
tokenval = NONE; 
return t; 








图 2-28 HEZ ARA RIRA OT ae CHS 


2.7 符号 表 


符号 表 是 一 种 数据 结构 ， 通 常用 于 保存 源 语言 结构 的 各 种 信息 。 编 译 器 在 分 析 阶 段 收 集 信 
息 放 入 符号 表 ， 在 综合 阶段 使 用 符号 表 中 的 信息 生成 且 标 代码 。 例 如 ， 在 词法 分 析 阶 段 ， 形 成 
标识 符 的 字符 串 或 词素 被 存储 在 符号 表 的 一 个 表 项 中 。 编 译 器 的 以 后 各 阶段 会 在 这 个 表 项 上 和 逐 
步 添 加 其 他 信息 ， 如 标识 符 的 类 型 、 用 处 〈 如 用 作 过 程 名 、 变 量 名 或 标号 ) 以 及 存储 位 置 。 在 
代码 生成 阶段 ， 编 译 器 使 用 这 些 信 息 生 成 存 取 这 些 变 量 的 正确 代码 。 在 7.6 节 ， 我 们 将 详细 讨 
论 符号 表 的 实现 和 使 用 ， 这 里 简单 地 说 明 上 一 节 讨 论 的 词法 分 析 器 如 何 使 用 符号 表 。 


2.7.1 符号 表 接 口 


与 符号 表 有 关 的 例 程 的 功能 主要 是 存 取 词 素 。 当 一 个 词素 被 保存 时 ， 我 们 也 保存 与 该 词素 
相关 的 记号 。 下 边 是 在 符号 表 上 执行 的 操作 ; i 

e insert (s,t): 将 字符 串 s 和 记号 t 的 插入 符号 表 ， 返 回 相应 表 项 的 索引 。 

。1lookup (s) : 到 符号 表 中 查找 字符 串 s， 如 果 找 到 则 返回 相应 表 项 的 索引 ， 否 则 返回 0。 


简单 的 一 站 编译 器 41 





词法 分 析 器 使 用 1ookup 操 作 确 定 某 个 词素 的 项 在 符号 表 中 是 否 已 经 存在 。 如 果 不 存 在 ， 
它 使 用 insert 操 作 在 符号 表 中 建立 一 个 新 表 项 存储 该 词素 及 其 相关 信息 。 我 们 将 讨论 一 种 实 
现 方 法 ， 让 词法 分 析 器 和 语法 分 析 器 都 知道 符号 表 表 项 的 格式 。 
2.7.2 处 理 保留 的 关键 字 

上 述 符号 表 子 程序 能 够 处 理 任 何 保留 的 关键 字 的 集合 。 例 如 ， 考 虑 具有 div 和 mod 词素 
的 两 个 记号 div 和 mod。 我 们 用 下 面 的 调用 来 初始 化 符号 表 : 

insert("div", div); 

insert ("mod", mod); 


符号 表 如 此 初始 化 以 后 ， 调 用 lookup ("div' ) 将 返回 记号 div, FH, div 不 能 再 被 用 作 标 
识 符 。 
任何 保留 关键 字 的 集合 都 可 以 通过 适当 地 初始 化 符号 表 而 得 到 正确 的 处 理 。 
2.7.3 符号 表 的 实现 方法 
图 2-29 给 出 了 一 种 符号 表 实 现 方法 的 数据 结构 。 我 们 不 希望 预 eA 
成 标识 符 的 词素 ， 因 为 固定 空间 大 小 可 能 不 足以 保存 长 标识 符 ， 而 对 于 短 标识 符 ( 如 i ) 又 会 
造成 空间 浪费 。 在 图 2-29 中 ， 我们 使 用 了 单独 的 数组 ] exemes ENTAR A 
一 个 字符 串 用 一 个 字符 串 终结 符 EoSs 结 束 。EOS 不 会 出 现在 任何 标识 符 中 。 符 号 表 数 组 
symtable 中 的 每 个 表 项 都 是 一 个 包含 两 个 域 的 记录 : 一 个 域 是 指向 词素 开始 位 置 的 指针 域 
lexptr， 另 一 个 域 是 存储 记 导 的 token 域 。 符 号 表 可 以 有 更 多 的 域 以 存储 属性 值 ， 这 里 我 
们 不 详细 讨论 。 
数组 symtable 
lexptr 记号 属性 




















数组 lexemes 


图 2-29 符号 表 和 存储 字符 串 的 数组 


在 图 2-29 中 ， 第 0 项 是 空 的 ， 其 原因 是 lookup 在 没有 找到 字符 串 对 应 的 项 时 返回 90。 第 1 
项 和 第 2 项 分 别 对 应 关键 字 div 和 mod。 第 3 项 和 第 4 项 分 别 对 应 标识 符 count Mio 

图 2-30 给 出 了 处 理 标 识 符 的 词法 分 析 器 的 伪 代 码 ， 其 C 语 言 实现 见 2.9 节 。 词 法 分 析 器 处 理 
空白 符 和 整 型 常数 的 方法 和 图 2-28 中 的 方法 相同 。 

当 读 到 一 个 字母 时 ， 词 法 分 析 器 开始 把 接 下 来 的 字母 和 数字 保存 在 一 个 叫做 1exbuf 的 组 
冲 区 中 。 然 后 ， 使 用 lookup 操作 在 符号 表 中 查找 缓冲 区 中 的 字符 串 。 因 为 符号 表 已 经 用 关 
F div M mod 进行 了 初始 化 〈 如 图 2-29 所 示 )， 所 以 ， 如 果 1exbuf 中 包含 div 或 者 mod， 
lookup 操作 将 找到 对 应 的 表 项 。 如 果 符 号 表 中 不 存在 lexbuf 中 的 字符 串 ， 即 Lookup 操 
REO, M lexbuf 中 包含 的 是 一 个 新 标识 符 的 词素 。 我 们 用 insert 操作 在 符号 表 中 创建 
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新 标识 符 的 表 项 ， 插 入 1exbuf PMA. HASERLUE, p 是 符号 表 中 存储 lexbuf 中 
字符 串 的 表 项 的 索引 。 通 过 设置 全 局 变量 tokenval X p, 将 p 值 传递 给 语法 分 析 器 ， 并 返 
回 表 项 token 域 中 的 记号 。 

默认 的 动作 是 返回 读 人 字符 的 整 型 编码 作为 记号 。 因 为 单字 符 记 号 没有 任何 属性 值 ， 所 以 
tokenval 设置 为 NONE。 


function lexan: integer; 
var lexbuf: array [0..100] of char; 


c: char; 
begin 
loop begin 

读 一 个 字符 到 c; 

if c 是 空格 或 制 表 符 then 
什么 也 不 做 

else if c 是 换行 符 then 
lineno := lineno + | 

else if c 是 一 个 数字 then begin 
该 数字 和 其 后 数字 的 所 表示 的 数 的 值 存 人 iokenval; 
return NUM 

end 

else if < 是 一 个 字母 then begin 
将 c 和 其 后 的 连续 字母 和 数字 存 人 iexbuf; 
p := lookup (lexbuf ); 
if p = 0 then 

p := insert (lexbuf , ID); 

tokenval := p; 
return 表 项 p 的 token 域 

end 

else begin /记号 是 单个 字符 */ 
将 tokenval 置 为 NONE; /* 没有 属性 #/ 
return 字符 c 的 整数 编码 


end 





图 2-30 词法 分 析 器 的 伪 代 码 
2.8 ”抽象 堆栈 机 


如 第 1 章 所 述 ， 编 译 器 可 以 划分 为 前 端 和 后 端 两 部 分 。 前 端 构造 源 程 序 的 中 间 表 示 ， 后 端 
从 中 间 表 示 生 成 目标 代码 。 一 种 流行 的 中 间 表 示 是 抽象 堆栈 机 代码 。 编 译 器 划分 为 前 端 和 后 端 
可 以 使 之 经 简单 修改 就 可 以 运行 在 一 台新 机 器 上 。 

本 节 描 述 一 种 抽象 堆栈 机 ， 并 讨论 其 代码 是 如 何 生 成 的 。 抽 象 堆栈 机 把 指令 存储 器 和 数据 
存储 器 分 开 ， 并 且 所 有 的 算术 操作 都 在 堆栈 上 执行 。 指 令 个 数 非常 有 限 ， 可 以 分 成 三 类 : WE 
算术 、 堆 栈 操作 和 控制 流 。 图 2-31 给 出 了 一 个 抽象 堆栈 机 。 指 针 pe 指明 要 执行 的 指令 。 下 面 
简单 讨论 一 下 指令 的 含义 。 

2.8.1 算术 指令 

抽象 机 必须 用 中 间 语 言 实现 每 个 操作 符 。 抽 象 机 直接 支持 象 加 法 和 减法 这 样 的 简单 操作 。 
更 复杂 的 操作 需要 由 一 个 抽象 机 指令 系列 来 实现 。 为 简化 堆栈 机 的 描述 ， 我 们 假定 每 个 算术 操 
作对 应 一 条 指令 。 
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指令 堆栈 数据 


push 5 | 16 | 0 
rvalue 2 top 11 
+ 7 
rvalue 3 te 


* pe 








oun & Ww N- 


图 2-31 前 四 条 指令 执行 后 的 堆栈 机 快照 


一 个 算术 表达 式 的 抽象 机 代码 用 堆栈 模拟 该 后 缀 表达 式 的 计算 。 这 个 计算 过 程 从 左 到 右 处 
理 后 缀 表达 式 ， 遇 见 操作 数 ， 就 将 其 压 人 堆栈 。 当 遇 到 一 个 元 操作 符 时 ， 它 的 最 左面 的 参数 
在 栈 顶 下 面 k-1 的 位 置 ， 最 右面 的 参数 在 栈 顶 。 在 栈 顶 的 k 个 元 素 上 应 用 这 个 kjE 操 作 符 : 弹出 
操作 数 ， 并 将 结果 压 和 堆栈。 例如， 对 后 级 表达 式 13+5* 进 行 计算 时 ,需要 执行 下 面 动作 : 

1. 1 人 栈 。 

2.3 人 栈 。 

3. 将 栈 顶 的 两 个 元 素 相 加 ， 从 栈 中 弹出 这 两 个 元 素 ， 并 将 结果 4 压 人 堆栈 。 

4.5 人 栈 。 

5. 将 栈 顶 的 两 个 元 素 相 乘 ， 从 栈 中 弹出 这 两 个 元 素 ， 将 结果 20 压 人 堆栈 。 
最 后 栈 顶 元 素 20 是 整个 表达 式 的 最 终结 果 。 

在 中 间 语 言 中 ， 所 有 的 值 都 是 整数 ，0 可 以 对 应 于 布尔 值 false， 非 0 值 可 以 对 应 于 布尔 
fi ture。 布 尔 型 操作 符 and 和 or 要 求 其 两 个 参数 都 已 计算 完毕 。 
2.8.2 AMA 

赋值 表达 式 左 部 和 右 部 的 标识 符 的 含义 是 不 一 样 的 。 在 赋值 语句 

i := 5; 

i := i + 1; 
中 ， 表 达 式 的 右 部 是 一 个 整 型 值 ， 左 部 是 值 要 存放 的 位 置 。 与 此 相似 ， 如 果 p 和 G 是 指向 字符 
的 指针 ， 表 达 式 





pt := qf; 


中 ， 右 部 a1 表示 一 个 字符 ， 左 部 p+ 表示 这 个 字符 应 该 存储 的 位 置 。 术 语 左 值 和 右 值 分 别 指 赋 
值 表达 式 左 部 和 右 部 对 应 的 值 。 也 就 是 说 ， 右 值 是 我 们 平常 意义 上 的 值 ， 而 左 值 是 一 个 位 置 。 
2.8.3 堆栈 操作 

除了 明显 的 将 常 整数 压 人 堆栈 的 指令 和 将 栈 顶 元 素 弹 出 的 指令 ， 还 有 几 个 访问 数据 内 存 的 
指令 : 

。push v 将 v 压 人 栈 顶 。 

。rvalue | 将 存储 器 位 置 上 上 的 数据 内 容 压 人 栈 。 

* lvalue 1 将 存储 器 位 置 ! 的 地 址 压 人 栈 。 

*pop 弹出 栈 顶 元 素 。 

。:= 栈 项 元 素 的 右 值 被 存放 到 栈 顶 的 下 一 个 元 素 的 左 值 中 ， 且 二 者 均 被 弹出 。 

。copy 把 栈 顶 元 素 的 副本 压 人 栈 顶 。 
2.8.4 表达 式 的 翻译 

使 用 堆栈 机 计算 表达 式 的 代码 与 表达 式 的 后 缀 表示 密切 相关 。 根 据 定义 ， 表 达 式 E+F 的 后 
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缀 形式 是 E 的 后 级 形式 、F 的 后 缀 形式 和 加 号 的 连接 。 类 似 地 ， 计 算 E+ FERIU Et 
FE 的 代码 、 计 算 F 的 代码 以 及 将 它们 的 值 相 加 的 指令 的 连接 。 因 此 ， 将 表达 式 翻 译 成 堆栈 机 
代码 可 以 通过 修改 26 节 和 2.7 节 的 翻译 器 得 到 。 

本 节 生 成 的 表达 式 堆栈 机 代码 中 ， 数 据 位 置 是 用 符号 地 址 表示 的 。 表 达 式 a+b 翻 译 成 


rvalue a 
rvalue b 
+ 


即 ， 把 a 和 bp 位置 上 的 数据 压 人 栈 顶 ， 然 后 将 栈 顶 的 两 个 数据 弹出 ， 将 其 相 加 ， 把 结果 压 人 栈 顶 。 
赋值 表达 式 翻 译 成 堆栈 机 代码 的 过 程 是 : 被 赋值 的 标识 符 的 左 值 压 人 栈 项 ， 计 算 表 达 式 ， 
将 结果 的 右 值 赋 给 标识 符 。 例 如 ， 赋 值 语句 








day := (1461*sy) div 4 + (153#m + 2) div 5 + d (2-17) 
被 翻译 成 图 2-32 中 的 代码。 lvalue day push 2 
赋值 语句 可 以 形式 化 地 表示 如 下 : push 1461 + 
rvalue y push 5 
simt > id := expr * div 
{ simt.t := ‘lvalue’ push 4 + 
: root div rvalue d 
|| id.lexeme || expr.e || ‘':=' } push 153 
、 rvalue m 
每 个 非 终结 符 具 有 属性 :，1 给 出 这 个 非 终 结 符 的 翻 . 
译 。 标 识 符 id 的 属性 lexeme 给 出 了 标识 符 的 字符 
BET 图 2-32 day := (1461*y) div 4 + 
RIK o 
285 控制 流 (153*m + 2) div 5 + d 的 翻译 
8. uit 


堆栈 机 是 顺序 执行 指令 的 ， 除 非 磁 到 条 件 指令 或 者 无 条 件 转移 语句 。 说 明 转 移 目标 地 址 的 
方法 有 如 下 几 种 : 

1. 转移 指令 的 操作 数 给 出 转移 的 目标 地 址 。 

2. 转移 指令 操作 数 给 出 转移 的 相对 位 移 ( 正 数 或 者 负数 )。 

3. 用 符号 表示 转移 的 目标 地 址 ， 即 机 器 所 支持 的 标号 。 

在 前 两 种 方法 中 ， 操 作 数 有 可 能 从 栈 顶 获得 。 

我 们 为 抽象 机 选择 第 三 种 方法 表示 转移 目标 地 址 ， 这 是 因为 这 种 方法 比较 容易 产生 控制 
转移 ， 而 且 在 产生 抽象 机 代码 以 后 无 需 改 变 符 号 地 址 ， 只 需 在 代码 上 进行 一 些 指令 的 插 人 和 
删除 。 

堆栈 机 的 控制 流 指令 如 下 : 

。label ! ”说 明 转移 的 旦 标 !， 没 有 其 他 效果 。 

sgotol 从 标 有 1 的 指令 开始 执行 下 一 条 指令 。 

*gofalse! 弹出 栈 顶 值 ， 如 果 是 0， 则 转移 到 1。 

egotruel 弹出 栈 顶 值 ， 如 果 非 0， 则 转移 到 1。 

shalt 停止 执行 程序 。 

2.8.6 诸 旬 的 翻译 

图 2-33 给 出 了 条 件 语句 和 while 语句 的 抽象 机 代码 的 框架 。 下 面 的 讨论 集中 在 标号 的 建 

WL, 


简单 的 一 这 编 谋 器 45 





if while 


expr 的 代码 


gofalse out 





label test 


expr 的 代码 

















gofalse out 









stmt KAR sunt, 的 代码 


图 2-33 条 件 语句 和 while 语句 的 代码 框架 


考虑 图 2-33 中 if 语句 的 代码 框架 。 在 源 程序 的 翻译 中 ， 只 允许 有 一 个 label out 指令 ， 
否则 ， 执 行 到 goto out 语句 时 将 产生 冲突 而 不 知道 将 控制 转 到 何 处 。 因 此 ， 当 翻译 if 语句 
时 ， 我 们 需要 采取 某 些 机 制 ， 用 惟一 的 标号 替换 代码 框架 中 的 out。 

假定 newlabel 是 一 个 过 程 ， 每 次 调用 它 时 ， 返 回 一 个 新 标号 。 在 下 面 的 语义 动作 中 ， 调用 
newlabel 过 程 返回 的 标号 保存 在 局 部 变量 out 中 。 


stmt 一 if expr then stmt, { ou := newlabel; 
stmi.t := expr.t | 
‘gofalse’ out || (2-18) 
stmt ,.t || 
‘label’ out } 


2.8.7 输出 一 个 翻译 

2.5 节 的 表达 式 翻 译 器 使 用 print 语句 逐渐 生成 一 个 表达 式 的 翻译 。 类 似 的 print 语句 也 可 以 
用 于 产生 一 个 语句 的 翻译 。 此 处 我 们 不 再 使 用 print 语句 而 使 用 emir 过 程 而 来 隐藏 输出 细节 。 
H, emit 可 能 关心 每 个 抽象 机 指令 是 否 需 要 输出 到 单独 一 行 。 使 用 emit 过 程 ， 我 们 可 以 用 
下 面 的 产生 式 代 替 (2-18): 


stmt 一 if . 
expr { out := newlabel; emit('gofalse’, out); } 
then 
stmt, { emit(‘label’, out); } 


当 产 生 式 中 出 现 语义 动作 时 ， 我 们 按照 从 左 到 右 的 顺序 考虑 产生 式 右 部 的 每 个 元 素 。 在 上 
面 的 产生 式 中 ， 语 义 动 作 的 顺序 如 下 : 在 分 析 expr 指令 时 out 设置 成 newlabel 返回 的 标号 ， 
然后 输出 gofalse 指令 ， 在 分 析 smn 语句 时 执行 语义 动作 ， 最 后 label 指令 被 输出 。 假 设 
在 分 析 expr 和 stmt 的 过 程 中 ,语义 动作 输出 了 这 些 非 终 结 符 的 代码 ， 上 面 产生 式 实现 了 图 2- 
33 所 示 的 代码 框架 。 

翻译 赋值 语句 和 条 件 语句 的 伪 代 码 如 图 2-34 所 示 。 因 为 out E stm 的 局 部 变量 ， 所 以 
它 的 值 不 会 受过 程 expr 和 sim 调用 的 影响 。 标 号 的 产生 需要 一 些 考虑 。 假 设 翻译 中 的 标号 是 
这 样 的 形式 : L1，L2 ，…。 伪 代码 把 2 后 面 跟随 的 整数 作为 的 实际 的 转移 标号 。 因 此 ，our 被 
说 明成 一 个 整 型 量 ，newlabel 返回 的 整 型 值 作为 out WIR, emit 输出 编号 必须 是 跟随 一 个 给 
定 的 整数 。 

图 2-33 中 while 语句 的 代码 框架 可 以 按 类 似 的 方式 转换 成 代码 。 语 句 序列 的 翻译 是 简单 地 
将 各 个 语句 连接 起 来 ， 这 留 给 读者 完成 。 

多 数 单 人 口 单 出 口 的 语法 结构 的 翻译 都 和 while 语句 的 翻译 相似 。 这 一 点 我 们 将 通过 考虑 
表达 式 中 的 控制 流 来 说 明 。 
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procedure stmt, 
var fest, out: integer, /» 标号 */ 
begin 
if lookahead = id then begin 
emit(‘1lvalue’, tokenval); match (id); match (' : ="); expr 
end 
else if jookahead = 'if' then begin 
match (‘if'); 
expr, 
out := newlabel; 
emit('gofalse’, out); 
match (‘then’); 
stmt, 
emit('label’, out) 
end 


/* 此 处 放 剩余 语句 的 代码 */ 
else error; 


图 2-34 翻译 语句 的 伪 代 码 











例 2.10 2.7 节 的 词法 分 析 器 包含 如 下 形式 的 条 件 语句 : 

if ¢ = blank or ¢ = tab then . - 
如 果 上 是 空格 ， 则 没有 必要 测试 : 是 否 为 制 表 符 ， 因 为 第 一 个 等 式 1 = blank 隐 含 了 这 个 条 件 
(t= blank or t= tab) 为 真 。 因 此 ， 表 达 式 

expr, OF expr2 
可 以 实现 为 

if expr, then true else expr, 

读者 可 以 验证 下 面 的 代码 可 以 实现 or 操作 ; 


expr KR 
copy /* 备份 expr 的 值 */ 


gotrue out 

pop /* 弹出 expn 的 值 */ 
expr tS 
label out 


gotrue 和 gofalse 指令 弹出 栈 顶 数值 来 简化 条 件 语句 和 while 语句 的 代码 生成 。 通 过 备份 
expr, 的 值 ， 我 们 可 以 保证 : 如 果 gotrue 指令 产生 转移 ， 则 栈 顶 值 为 真 。 


2.9 技术 的 综合 


本 章 讨 论 了 许多 用 于 构建 一 个 编译 器 前 端的 语法 制导 技术 。 为 了 总 结 这 些 技 术 ， 本 节 给 
一 个 C 语 言 编 写 的 翻译 器 ， 它 把 用 分 号 分 隔 的 中 组 表达 式 序列 翻译 为 相应 的 后 缀 表达 式 序 列 。 
表达 式 由 数字 、 标 识 符 、 操 作 符 (+、-、*、/、div、mod ) 构成 。 该 翻译 器 是 2.5 节 至 2.7 节 
中 程序 的 扩展 。 本 节 末 尾 给 出 了 完整 的 C 语 言 程序 。 
2.9.1 翻译 器 的 描述 

该 翻译 器 是 用 图 2-35 中 的 语法 制导 翻译 模式 设计 的 。 记 号 id 用 来 表示 一 个 由 字母 开始 的 
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非 空 字母 数字 序列 ，num 是 一 个 数字 序列 ，eof 是 一 个 表示 文件 结束 的 字符 。 记 号 由 空格 、 制 
表 符 和 换行 符 (“空白 符 ”) 分 隔 。 记 号 id 的 属性 lexeme 给 出 了 形成 该 记号 的 字符 串 。num 的 
属性 value 给 出 了 由 num 表示 的 整 型 数 。 

翻译 器 的 代码 由 7 个 模块 构成 ， 分别 存储 在 各 自 的 文件 里 。 程 序 的 执行 从 main.c 模块 开 
始 ， 该 模块 调用 init () 进行 初始 化 ， 然 后 调用 parse () 进行 翻 译 。 其 余 的 6 个 模块 如 图 2-36 
所 示 。 这 ?个 模块 中 有 一 个 全 局 头 文 伟 global .h， 它 包含 各 模块 公用 的 定义 ， 其 余 各 模块 的 
第 一 条 语句 

#include "global.h" 
(EET PRR A Ik PAE. 在 给 出 翻译 器 代码 之 前 ， 我 们 简单 描述 一 下 各 个 模块 以 及 它 
们 是 如 何 构造 的 。 


start = list eof 
list = expr ; list 













| e PRR ASE 
expr > expr + term { prine('+') } 
| expr - term { print -') } 
| term 
term 一 term » factor { prin’) } /— 
| term / factor { prit’) } 


| term div factor { print(’DIV’) } 
| term mod factor { print(’MOD’) } 


a 








| factor 
factor > ( expr ) 
| id { print (id.lexeme) } 后 缀 表达 式 
| num { print(num.value) } 
图 2-35 中 缀 到 后 级 翻译 器 的 规格 说 明 图 2-36 中 缀 到 后 组 翻译 器 的 模块 


2.9.2 词法 分 析 器 模块 lexer.c 

词法 分 析 髓 是 一 个 称 为 1exan () 的 程序 。 语 法 分 析 器 调用 Lexan () KRIS. lexan () 
由 图 2-30 的 伪 代 码 实现 。1exan ( ) 每 次 读 人 一 个 字符 ， 并 将 它 发 现 的 记号 返回 给 语法 分 析 器 。 
与 记号 关联 的 属性 的 值 被 赋 给 全 局 变量 tokenval. 

下 列 记号 是 语法 分 析 器 所 需要 的 : 

+ - * / DIV MOD ( ) ID NUM DONE 
这 里 ，ID 表示 一 个 标识 符 ，NUM 是 一 个 数字 ，DONE 是 文件 未 尾 字符 。 空 白 符 已 被 词法 分 析 
器 去 除 。 图 2-37 中 的 表 给 出 了 每 个 源 程序 语言 的 词素 对 应 的 记号 和 属性 值 。 








ee 序列 的 数值 
LV ee 
mod eee eee ee re er 
JUE FTK BCE 
Sie a a] | pe 
文件 结束 符 pp 
任何 其 他 字符 cece 


图 2-37 记号 的 描述 
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词法 分 析 器 使 用 符号 表 程序 10okup 判 定 一 个 标识 符 词 素 是 否 曾经 出 现 过 。insert 程 序 
将 新 词素 存储 到 符号 表 中 。 每 当 读 到 一 个 换行 符 ， 全 局 变量 ] ineno 加 1。 
2.9.3 语法 分 析 器 模块 parser.c 

该 语法 分 析 器 是 用 2.5 节 的 技术 构建 的 。 我 们 首先 从 图 2-35 的 翻译 模式 中 消除 左 递归 ， 以 便 
该 文法 可 以 由 递归 下 降 语法 分 析 器 进行 





语法 分 析 。 转 换 后 的 翻译 模式 如 图 2-38 “Tt = expe it 
所 示 。 | e 

我 们 来 构建 非 终结 符 expr，term 和 moreterms - perm (prin) } moreterms 
actor 的 函数 ， 构 造 方法 类 似 于 图 2-24 所 | = term { print(‘-') } moreterms 
ING. Ripar se () 实现 文法 的 起 term ! factor morefactors 
始 符号 ， 在 它 需 要 一 个 新 的 记号 时 调用 morefactors > * factor { print('#') } morefactors 
1exan 国 数 。 语 法 分 析 器 使 用 emit 函 数 | 7 factor { print(’/') } morefactors 
产生 输出 并 用 error 函 数 报告 语法 错误 。 | fe {Pr DE efor 
2.9.4 输出 模块 emitter.c | € 

输出 模块 由 单个 函数 emit (t， factor | ia T int id. texeme) } 
tval) 组 成 ， 它 为 具有 属性 值 tval 的 记 | num { print (num.value) } 
号 t 产 生 输 出 。 、 = 、 
2.9.5 符号 表 模 块 sevmbol.c 和 init.c 图 2-38 消除 左 递归 后 的 语法 制导 翻译 模式 


符号 表 模 块 sympol .c 实 现 2.7 节 图 2-29 中 的 数据 结构 。 数 组 symtable 的 每 一 项 由 一 个 指 
向 lexemes 数 组 的 指针 和 一 个 表示 记号 的 整数 编码 组 成 。insert (s, 上 ) 操作 返回 词素 s( 词 
素 s 构 成 记号 t ) 在 symtable 中 的 索引 。lookup (s) 函数 返回 词素 s 在 symtable 中 项 的 索引 ， 
如 果 s 不 存在 ， 返 回 0。 

init.c 模块 用 于 为 符号 表 symtable 预 加 载 关键 字 。 所 有 关键 字 的 词素 和 记号 表示 都 
保存 在 keywords 数组 中 ，keywords 数组 与 symtable 数组 有 相同 的 类 型 。init () A% 
顺序 地 扫描 keywords 数组 ， 利 用 insert () 操作 将 关键 字 插 入 符号 表 。 这 种 组 织 方式 使 得 
关键 字 的 记号 表示 容易 改变 。 
2.9.6 错误 处 理 模 块 error .ec 

错误 处 理 模块 负责 错误 的 报告 ， 这 是 极为 基本 的 。 一 旦 语法 错误 被 发 现 ， 编 译 器 将 显示 一 
条 消息 说 明 当 前 输入 行 出 现 错误 ， 并 停止 分 析 。 一 种 较 好 的 错误 恢复 技术 是 使 编译 器 跳 过 出 错 
的 语句 ， 继 续 进行 语法 分 析 ; 我 们 鼓励 读者 为 翻译 器 做 这 种 修改 。 更 复杂 的 错误 恢复 技术 将 在 
第 4 章 讨论 。 
2.9.7 编译 器 的 建立 

各 个 模块 的 代码 保存 存 7 个 文件 里 ; lexer.c、 parser.c、 emitter.c、symbol.c、 
init.c、error.c 和 main.c。 在 这 个 C 程 序 中 ， 文件 main.c 包含 主 程序 ， 它 调用 
init() ， 然 后 调用 parse() ， 分 析 成 功 后 调用 exit (0) 返 回 。 

在 UNIX 操 作 系统 中 ， 编 译 器 可 以 通过 执行 命令 

cc lexer.c parser.c emitter.c symbol.c init.c error.c main.c 


来 建立 ， 或 者 使 用 命令 


cc -c filename.c 
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分 别 编译 各 个 文件 ， 然 后 连接 前 面 得 到 的 filename ,o 文件 : 


cc lexer.o parser.o emitter.o Symbol.o init.o error.o main.o 


这 条 cc 命令 产生 一 个 包含 该 翻译 器 的 a .out 文件 。 使 用 该 翻译 器 的 时 候 ， 键 人 a . out 以 及 紧 
随 的 欲 翻译 表达 式 ， 如 


24+3«S; 

12 div 5 mod 2; 
或 者 其 他 任何 你 喜欢 的 表达 式 。 试 一 试 吧 ! 
2.9.8 程序 on 


下 面 是 实现 该 翻译 器 的 C 语 言 程序 清单 。 第 1 个 文件 是 全 局 头 文件 global .h， 后 面 是 7 个 
和 文件 。 为 了 清 起 起 ， 该 程序 是 用 基础 C 语 言 的 风格 来 书写 的 。 


arux global.h ETENEE TPT T ET VIET ISSCC TETEE E TEET S TETEE ETE E E E EFA 
#include <stdio.h> Je 输入 /输出 */ 

#include <ctype.h> /* 加 载 字 符 测 试 程序 «7 

#define BSIZE 128 A MK K */ 

#define NONE -1 

#define EOS NO’ 


#define NUM 256 
#define DIV 257 
#define MOD 258 


#define ID 259 
#define DONE 260 
int tokenval; 7s 记号 的 属性 值 */ 


int lineno; 


struct entry { / 
char #lexptr; 
int token; 


家 


符号 表 的 表 项 格式 */ 


}; 


struct entry symtable[); A RER a/ 


Sanar lexer.c Fe Se IR TR AE A BE AR A GE AE EUR EER ETE i aie ak de AE E A EE 


#include "global .h" 


char lexbuf[BSIZE]; 
int lineno = 1; 
int tokenval = NONE; 


int lexan() /Za 词法 分 析 器 *7/ 
{ 
int t; 
while(1) { 
t = getchar(); 
if (t 2= 7 Fl t =e Nt’) 
> /* ERBAR */ 
else if (t == ’\n’) 
lineno = lineno + 1; 
else if (isdigit(t)) { A* t 是 数字 */ 


ungete(t, stdin); 
scanf("%d", S&tokenval); 
return NUM; 
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else if (isalpha(t)) { 
int p, b = 0; 
while (isalnum(t)) { 


Saeee parser. 


/Za t 是 字母 a7 


Je 上 是 字母 或 数字 
lexbuf[b] = t; 
t = getchar(); 
b=b+ 13 
if (b >= BSIZE) 
error("compiler error"); 
} 
lexbuf[b] = EOS; 
if (t != EOF) 
ungetc(t, stdin); 
p = lookup(lexbuf ); 
if (p == 0) 
p = insert(lexbuf, ID); 
tokenval = p; 
return symtable[p] .token; 


if (t == EOF) 
return DONE; 

{ 

tokenval = NONE; 
return t; 


RLF 


*/ 


c HREEEHEREREEEEEREEREERERHREHEREER ae de aE E a E e t e E a t 


#include "global.h” 


int lookahead; 


parse() /* 
{ 
lookahead 


分 析 并 翻译 表达 式 列 表 */ 


= lexan(); 


while (lookahead lz DONE ) { 
expr(); match(’;’); 


} 
} 
expr () 
{ 
int t; 
term(); 
while(1) 
switch (lookahead) { 
case ’+’: case ’-’: 
t = lookahead; 
match(lookahead); term(); emit(t, NONE); 
continue; 
default: 
return; 
} 
} 
term( ) 
{ 
int t; 
factor(); 
while(1) 


switch (lookahead) { 


case 


’a’: case ’/’: case DIV: case MOD: 


ii} -F hj — 18 Se FS 


} 


factor () 
{ 





t = lookahead; 


match(lookahead); factor(); emit(t, NONE); 
continue; 
default: 


return; 


switch(lookahead) { 


} 


match(t) 
int 


case ‘(’: 

match(’(’); expr(); match(’)’); break; 
case NUM: 

emit{NUM, tokenval); match(NUM); break; 
case ID: 

emit(ID, tokenval); match(ID); break; 
default: 

error("syntax error"); 


t; 


if (lookahead == t) 


lookahead = lexan(); 


else error("syntax error"); 


} 


[eee 


#include 


emit(t, 


emitter.c 


"global.h" 
tval) A# 生成 输出 *#/ 


int t, tval; 


{ 


switch(t) { 


Jehan 


symbol.c 


case ’+’: case ’-’: case ’*’: case ‘/’: 
print£("%c\n", t); break; 
case DIV: 
print£("DIV\n"); break; 
case MOD: 
print£("MOD\n"); break; 
case NUM: 
printf£("Xd\n", tval); break; 
case ID: 


printf£("%s\n", symtable[{tval].lexptr); break; 
default: 


printf("token Xd, tokenval %d\n", t, tval); 


#include “global.h" 


#define STRMAX 999 /sw lexemes 数 组 的 大 小 */ 
#define SYMMAX 100 /#4 symtable 的 大 小 «/ 

char lexemes{[STRMAX); 

int lastchar = - 1; /# lexemes 中 最 后 引用 的 位 置 */ 
struct entry symtable[SYMMAX]; 

int lastentry = 0; 7» symtable 中 最 后 引用 的 位 置 «7 


eee Te eT ETE TT TTT TTC ee eee E TETE eee ee E EzE y4 


Pee E R IE AE CST TTT TT TTT TTT TTT GE AE GE A DEAE A AE AE IE AEE AE IE e A 


jd 
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int lookup(s) At 返回 s 的 表 项 的 位 置 «/ 
char s[]; 


int p; 
for (p = lastentry; p > 0; p= p - 1) 
if (strcemp(symtable[p].lexptr, s} == 0) 
return p; 
return 0; 


int insert(s, tok) 7 返回 s 的 表 项 的 位 置 «7 
char sÍ]; 


int tok; 


int len; 
len = strlen(s); /* strlen 计 算 s 的 长 度 «7 
if (lastentry + 1 >= SYMMAX) 
error("“symbol table full"); 
if (lastchar + len + 1 >= STRMAX) 
error("lexemes array full"); 
lastentry = lastentry + 1; 
symtable[lastentry}.token = tok; 
symtable[lastentry].lexptr = &lexemes{lastchar + 1]; 
lastchar = lastchar + len + 1; 
strcpy(symtable[lastentry].lexptr, 8); 
return lastentry; 


anna init.c LERET EEZZETEEETTETTEEETEEET EEEE EETETEEErEEETT TA 


#include "global.h" 


struct entry keywords[] = { 
"div", DIV, 
"mod", MOD, 
0, 0 


init() /s 将 关键 字 填 人 符号 表 #7 
{ 


struct entry #p; 
for (p = keywords; p->token; p++) 
insert (p->lexptr, p->token); 


Jaraw error.c REGRET RHEE EHR EEEE TETE EE ETE / 


#include "global.h" 
error(m) /* 生成 所 有 的 出 错 信息 */ 


char +m; 
{ 
fprintf(stderr, “line %d: Xs\n", lineno, m); 
exit(1}; As 非 正常 终止 #/ 
} 
enna main.c LETETTE TTEETETTTTTETEETTTETETETTEE E y 


#include “global.h" 


main() 
{ 
init(); 


#2 
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} 








parse(); 
exit(0); 7* 正常 终止 «7 
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练习 


2.1 


2.2 


2.3 
2.4 


* 2. 
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2.6 
2.7 


2. 
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考虑 下 面 的 上 下 文 无 关 文 法 : 
S+SS+ |SSs# la 
a) TAA iy ERA E RB aa+a*。 
b 试 为 aa+a* 构建 一 个 分 析 树 。 
c) 该 文法 产生 的 语言 是 什么 ?证明 你 的 答案 。 
下 面 的 文法 产生 什么 语言 ? 证 明 你 的 答案 。 
as>osi1j}o1 
b)s++SS]-SS|a 
c) S> S(S)Sle 
d S>aS bS |bSasS]|e 
e)SralS+S|SS{|S*| (S9) 
练习 2.2 中 哪些 文法 具有 二 义 性 ? 
为 下 面 的 每 种 语言 构建 无 二 义 性 的 上 下 文 无 关 文法 。 证 明 你 的 文法 是 正确 的 。 
a) 后 缀 表示 的 算术 表达 式 。 
bd 逗号 分 隔 的 左 结合 的 标识 符 列 表 。 
c) 逗号 分 隔 的 右 结合 的 标识 符 列表 。 
d) 由 整数 、 标 识 符 、 四 个 二 元 运算 符 ( +、-、*、/ ) 构成 的 算术 表达 式 。 
e) 在 d 中 增加 一 元 运算 符 + 和 - 之 后 的 算术 表达 式 。 
a) 证 明 : 用 下 面 文法 产生 的 所 有 二 进 制 串 的 值 都 能 被 3 整除 。( 提示 : 对 分 析 树 节点 数 
目 使 用 数学 归纳 法 。) 


num > 11 | 1001 | num O | num num 


b 上 面 的 文法 是 否 产生 所 有 能 被 3 整除 的 二 进 制 串 ? 

为 罗马 数字 构建 一 个 上 上 下文 无 关 文 法 。 

构建 一 个 语法 制导 翻译 模式 ， 将 算术 表达 式 从 中 缀 表示 翻译 成 前 缀 表示 。 在 前 缀 表示 
中 ， 操 作 符 出 现在 操作 数 的 前 面 ， 例 如 ，-xy 是 x-y 的 前 缀 表示 。 给 出 输入 9-5 + 2 和 
9-5 *2 的 注释 分 析 树 。 

构建 一 个 语法 制导 翻译 模式 ， 将 算术 表达 式 从 后 缀 表示 翻译 成 中 缀 表示 。 给 出 输入 
95-2* 和 952*- 的 注释 分 析 树 。 


2.9 构建 一 个 语法 制导 翻译 模式 ， 将 整数 翻译 成 罗马 数字 。 

2.10 构建 一 个 语法 制导 翻译 模式 ， 将 罗马 数字 翻译 成 整数 。 

2.11 构建 练习 2.2 中 文法 a、b、c 的 递归 下 降 语法 分 析 器 。 

2.12 构建 一 个 语法 制导 翻译 器 ， 验 证 一 个 输入 串 中 的 括号 是 成 对 出 现 的 。 
2.13 下 面 的 规则 定义 了 一 个 英文 单词 到 倒 读 隐 语 ( pig Latin) 的 翻译 : 


a) 如 果 一 个 单词 以 非 空 的 辅音 串 开 始 ， 则 将 最 前 面 的 辅音 串 移 到 单词 的 末尾 ， 并 增 
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加 一 个 后 级 AY; 例如 ，pig Z igpay: 
b 如 果 单 词 以 元 音字 母 开始 ， 增 加 一 个 后 级 YAY; ØA, owl 变 成 owlyay。 
c) 跟 在 8 后 面 的 U 是 辅音 。 
d) 如 果 Y 在 一 个 单词 的 开头 ,而且 后 面 没 有 跟着 元 音 ， 则 Y 是 元 彰 。 
e) 单字 母 构 成 的 单词 不 变 。 
为 倒 读 隐语 构造 一 个 语法 制导 翻译 模式 。 
2.14 在 C 程 序 设计 语言 中 ，for 语句 具有 如 下 形式 : 
for ( expr; ; expra ; expr; ) stmt 
exprl 在 循环 之 前 执行 ， 用 来 初始 化 循环 变量 。expr; 在 每 次 循环 之 前 测试 ， 当 表达 式 
为 0 时 ， 循 环 退 出 。 循 环 本 身 由 语句 (stmt expr } 构 成 。expr; 在 每 次 循环 的 末尾 执 
行 ， 用 于 给 循环 变量 增值 。for 语句 和 下 面 的 语句 含义 相似 ， 


expr,;; while ( expr. ) { stmt expry; } 





构造 一 个 语法 制导 翻译 模式 将 C 语 言 的 for 语句 翻译 成 堆栈 机 代码 。 

*2.15 考虑 下 面 的 for 语句 : 
for i := 1 step 10 ~ j until 10 + jdo j := j +1 
对 这 条 语句 可 以 给 出 三 种 语义 定义 。 一 种 可 能 的 语义 是 ， 条 件 10 * j 和 增 基 10-j 在 
循环 之 前 一 次 性 计算 ， 如 在 PLI 中 。 例 如 ， 如 果 循 环 之 前 j = 5， 循 环 运行 10 次 后 退 
出 。 第 二 种 可 能 的 语义 完全 不 同 ， 每 次 循环 都 要 重新 计算 条 件 和 增 量 。 例 如 ， 如 果 
进入 循环 之 前 j= 5， 则 循环 永远 不 会 终止 。 第 三 种 语义 由 Algol 这 样 的 语言 给 出 。 当 
增 量 是 负 值 时 ,循环 终止 条 件 的 判断 是 i < 10 *j ， 而 不 是 了 > 10 * j。 为 上 面 的 每 一 
种 语义 定义 构建 一 个 语法 制导 模式 ， 将 for 循 环 语句 翻译 成 堆栈 机 代码 。 

2.16 考虑 下 面 的 if-then 语句 和 if-then-else 语句 的 部 分 文法 : 

stmt 一 if expr then stmt 


| if expr then stmt else stmt 
| other 


Eh, other 代表 语言 中 的 其 他 语句 。 
a) 证 明 该 文法 是 具有 二 义 性 的 。 
b) 构造 一 个 等 价 的 无 二 义 性 文法 ， 使 得 else 与 前 面 最 近 的 没有 匹配 的 then 匹配 。 
c) 基于 该 文法 构造 一 个 语法 制导 翻译 模式 ， 将 条 件 语句 翻译 成 堆栈 机 代码 。 
* 2.17 构造 一 个 语法 制导 翻译 模式 ， 将 算术 表达 式 从 中 缀 表示 翻译 成 没有 多 余 括 号 的 中 级 
表示 。 给 出 输入 (( (1+2) * (3 * 4)) + 5) 的 注释 分 析 树 。 


编程 练习 


P2.1 基于 练习 2.9 中 开发 的 语法 制导 翻译 模式 ， 实 现 把 整数 翻译 成 罗马 数字 的 翻译 器 。 
P2.2 修改 2.9 节 中 的 翻译 器 ， 使 其 产生 2.8 节 的 抽象 堆栈 机 的 代码 作为 输出 。 

P2.3 修改 2.9 节 中 的 错误 恢复 模块 ， 使 得 遇 到 错误 时 ， 跳 到 下 一 个 输入 表达 式 。 

P2.4 扩展 2.9 节 中 的 翻译 器 ， 使 其 能 够 处 理 所 有 Pascal 表 达 式 。 

P2.5 扩展 2.9 节 中 的 编译 器 ， 将 下 面 文法 生成 的 语句 翻译 成 堆栈 机 代码 ， 


stmt = id := expr 
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| if expr then stmt 
| while expr do stmt 
| begin opt_stmis end 


opt_stmts > stmt_list | 上 
stmt_list > stmt_list ; stmt | simt 
*P2.6 构造 2.9 节 编译 器 的 一 组 测试 表达 式 ， 使 得 在 导出 某 个 测试 表达 式 时 ， 每 个 产生 式 至 
少 使 用 一 次 。 构 造 一 个 能 作为 通用 编译 器 测试 工具 的 测试 程序 。 使 用 你 的 测试 程序 
在 你 的 测试 表达 式 上 运行 你 的 编译 器 。 
P2.7 构造 练习 P2.5 中 编译 器 的 一 组 测试 语句 ， 使 得 在 产生 某 个 测试 语句 时 ， 每 个 产生 式 
至 少 使 用 一 次 。 使 用 练习 P2.6 中 的 测试 程序 在 你 的 测试 表达 式 上 运行 你 的 编译 器 。 


参考 文献 注释 


本 章 是 介绍 性 的 一 章 , 涉及 了 许多 随后 各 章 要 详细 介绍 的 主题 。 这 些 章节 的 参考 文献 将 包 
含 更 丰富 的 素材 。 

Chomsky[1956] 将 上 下 文 无 关 文 法 作为 研究 自然 语言 的 一 部 分 提出 。 上 下 文 无 关 文 法 在 定 
义 程序 设计 语言 语法 方面 的 应 用 是 独立 出 现 的 。 在 起 草 Algol 60 的 工作 中 ，John Backus 使 用 了 
Emil Post 产生 式 ( Wexelblat[1981,p.162] )。 这 种 表示 法 是 上 下 文 无 关 文 法 的 一 个 变种 。 学 者 
Panini 提出 了 一 种 等 价 的 语法 表示 ， 用 来 说 明 公 元 前 400 年 到 公元 前 200 年 之 间 出 现 的 Sanskrit 
文法 的 规则 ( Ingerman [1967] )。 

BNF 最 初 是 Backus Normal Form 的 缩写 ， 读 作 Backus-Naur 范式 ， 其 目的 是 纪念 Algol 
60 报 告 的 作者 Naur 的 贡献 ( Naur [1963] ) BNF 最 早出 现在 Knuth[1964] 中 。 

语法 制导 定义 是 一 种 语义 结构 上 的 归纳 定义 ， 长 期 以 来 一 直 非 正式 地 用 于 数学 中 。 随 着 
Algol 60 报告 中 结构 文法 的 使 用 ， 才 将 其 应 用 到 程序 设计 语言 中 。 不 久 ，Irons[1961] 构 造 了 一 
个 语法 制导 编译 器 。 

递归 下 降 语 法 分 析 从 20 世 纪 60 年 代 初 就 已 经 被 使 用 了 。Bauer[1976] 将 这 种 方法 归功 于 
Lucas[1961]。Hoaref1962b, p.128] 描述 了 一 个 Algol 编 译 器 ， 这 个 编译 器 是 “一 组 过 程 ， 每 个 
过 程 能 够 处 理 Algol 60 报 告 中 的 一 个 语义 单元 ”"。Foster[1968] 讨论 了 在 不 影响 属性 值 的 前 提 下 , 
消除 包含 语义 动作 的 产生 式 中 的 左 递归 。 

McCarthy[1963] 建议 语言 的 翻译 可 以 基于 抽象 语法 。 在 同一 篇 文章 McCarthy[1963, p.24] 
里 试图 让 读者 相信 ， 一 个 尾 递 归 的 阶乘 函数 的 公式 和 一 个 循环 程序 是 等 价 的 。 

将 一 个 编译 器 分 成 前 端 和 后 端的 好 处 是 由 Strong 等 人 (Strong et al. [1958] ) 在 委员 会 报告 
中 首次 提出 的 。 该 报告 给 通用 的 中 间 语 言 提 出 了 一 个 名 字 UNCOL (universal computer oriented 
language )。 这 个 概念 一 直 是 一 种 理想 。 

学 习 实 现 编译 器 技术 的 一 个 好 的 方法 是 阅读 现 有 的 编译 器 的 程序 代码 。 不 幸 的 是 ， 代 码 通 
常 是 不 公开 的 。Randell and Russell[1964] 给 出 了 一 个 复杂 的 早期 Algol 编译 器 的 代码 。 编 译 器 
的 代码 也 可 以 从 McKeeman, Horning and Wortman[1970] 中 找到 。Barron[1981] 是 关于 Pascal 
语言 实现 的 论文 集 ， 包 括 Pascal P 编译 器 ( Nori et al. [1981] ) 的 实现 注释 、 代 码 生 成 细节 
(Ammann[1977] )、Pascal S 的 实现 代码 、Wirth[1981] 为 学 生 使 用 设计 的 Pascal TÆ. 
Knuth[1985] 极其 清晰 详细 地 描述 了 TeX 翻译 器 。 

Kernighan and Pike[1984] 详细 地 描述 了 如 何 使 用 UNIX 上 可 用 的 编译 器 构建 工具 围绕 语法 
制导 翻译 模式 来 建立 一 个 桌面 计算 器 程序 。 等 式 (2-17 ) 来 自 于 Tantzen[1963]。 


第 3 章 词法 分 析 


本 章 主 要 讨论 词法 分 析 器 的 说 明和 实现 技术 。 实 现 词法 分 析 器 的 简单 方法 包括 两 步 : 首先 
建立 一 张 描述 源 语言 记号 的 结构 的 图 。 然 后 ， 手 工地 把 这 张 图 番 译 成 能 够 识别 源 语 言 记号 的 程 
序 。 用 这 种 方法 可 以 产生 有 效 的 词法 分 析 器 。 

这 种 实现 词法 分 析 器 的 技术 也 经 常用 于 其 他 领域 ， 如 查询 语言 与 信息 检索 系统 。 在 每 个 应 
用 中 ， 最 基本 的 问题 是 如 何 设计 与 说 明 一 种 特殊 的 程序 ， 它 能 够 完成 由 字符 串 中 的 模式 触发 的 
动作 。 因 为 模式 制导 程序 设计 方法 的 应 用 非常 广泛 ， 我 们 介绍 一 种 用 于 说 明 词法 分 析 器 的 “ 模 
式 -动作 ”语言 Lex。 在 这 种 语言 中 ， 模 式 用 正规 表达 式 说 明 ， 而 且 Lex 语 言 的 编译 器 能 够 产生 
一 个 识别 正规 表达 式 的 有 穷 自动 机 识别 器 。 

除了 Lex 以 外 ， 还 有 一 些 语言 也 是 用 正规 表达 式 来 描述 模式 的 。 例 如 ， 模 式 扫描 语言 AWK 
利用 正规 表达 式 来 选择 输入 行进 行 处 理 ，UNIX 系 统 的 shell 允 许 用 户 通过 正规 表达 式 指定 一 组 
文件 名 ， 如 UNIX 命 令 rm *.o 用 来 删除 所 有 文件 名 以 “.o” 结 尾 的 文件 。® 

词法 分 析 器 的 自动 生成 工具 可 以 使 具有 不 同 背景 的 人 员 在 他 们 各 自 的 应 用 领域 中 使 用 匹配 
的 模式 。 例 如 ，Jarvis[1976] 用 词法 分 析 器 的 生成 器 生成 一 个 程序 ， 用 于 识别 印 制 电 路 板 中 的 缺 
陷 。 电 路 是 数字 扫描 的 并 转换 成 不 同 角度 的 线段 的 “ 串 "。 “词法 分 析 器 ”在 线段 的 “ 串 ” 中 寻 
找 对 应 于 这 些 缺 陷 的 模式 。 词 法 分 析 器 的 生成 器 的 最 大 优点 是 它 能 利用 最 著名 的 模式 匹配 算法 
为 那些 不 精通 模式 匹配 技巧 的 人 产生 有 效 的 词法 分 析 器 。 | 83 | 


3.1 词法 分 析 器 的 作用 


词法 分 析 是 编译 的 第 一 阶段 。 词 法 分 析 器 的 主要 任务 是 读 人 输入 字符 ， 产 生 记 号 序列 ， 提 
交 给 语法 分 析 使 用 。 这 种 交互 〈 示意 性 地 总 结 在 图 3-1 中 ) 通常 可 以 通过 使 词法 分 析 器 作为 语 
法 分 析 器 的 子 程序 或 协作 程序 来 实现 。 当 词法 分 析 器 收 到 语法 分 析 器 发 出 的 “ 取 下 一 个 记号 ” 
的 命令 时 ， 词 法 分 析 器 读 人 输入 字符 ， 直 到 识别 出 下 一 个 记号 。 


源 程序 





图 3-1 词法 分 析 器 与 语法 分 析 器 之 间 的 交互 


词法 分 析 器 是 编译 器 中 读 人 源 程序 的 部 分 ， 因 此 它 还 可 以 完成 一 些 相关 的 辅助 任务 。 一 个 
任务 是 滤 掉 源 程序 中 的 注释 、 空 格 、 制 表 符 、 换 行 符 ; 另 一 个 任务 是 使 编译 器 能 将 发 现 的 错误 


O 表达 式 * .o 是 常用 的 正规 表示 法 中 的 一 个 变种 。 练 习 3.10 和 练习 3.14 中 给 出 了 某 些 正规 表达 式 的 常用 表示 法 。 


| 85 | 
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行 号 与 出 错 信息 联系 起 来 。 在 某 些 编译 器 中 ， 词 法 分 析 器 负责 拷贝 一 份 源 程 序 ， 并 将 出 错 信息 
加 和 人 其中。 如 果 源 语言 支持 宏 预 处 理 功 能 ， 可 以 在 词法 分 析 阶 段 完 成 这 些 预 处 理 功 能 。 

有 时 ， 词 法 分 析 器 可 以 分 两 阶段 : 第 一 个 阶段 是 扫描 阶段 ， 第 二 个 阶段 是 词法 分 析 阶 段 。 
扫描 程序 负责 完成 一 些 简单 的 任务 ， 词 法 分 析 器 要 完成 比较 复杂 的 任务 。 例 如 ，EFortran 编 译 器 
可 以 使 用 扫描 程序 从 输入 中 清除 空格 。 

3.1.1 词法 分 析 中 的 问题 

把 编译 过 程 的 分 析 阶 段 划分 为 词法 分 析 和 语法 分 析 的 原因 如 下 : 

1. 简化 编译 器 的 设计 可 能 是 最 重要 的 考虑 。 词 法 分 析 和 语法 分 析 分 离 可 以 简化 两 者 的 设计 。 
例如 ， 如 果 把 空白 符 和 注释 的 处 理 包含 在 语法 分 析 时 一 并 考虑 ， 而 不 是 由 词法 分 析 器 来 完成 ， 
将 会 使 语法 分 析 器 的 结构 变 得 十 分 复杂 。 可 见 ， 把 词法 分 析 从 语法 分 析 中 分 离 出 来 会 有 利于 我 
们 简化 这 一 阶段 的 设计 。 

2. 提高 编译 器 的 效率 。 把 词法 分 析 独 立 出 来 使 我 们 能 构造 更 有 效 的 专门 的 处 理 器 。 编 译 的 
大 部 分 时 间 消 耗 在 读 源 程序 并 将 其 切 分 为 记号 方面 。 采 用 专门 的 缓存 技术 来 进行 输入 字符 串 的 
读 取 和 记号 的 处 理 可 以 显著 地 提高 编译 器 的 性 能 。 

3. 增强 编译 器 的 可 移植 性 。 与 设备 有 关 的 特征 以 及 语言 的 字符 集 的 特殊 性 的 处 理 可 以 被 限 
制 在 词法 分 析 器 中 。 类 似 于 Pascal 语 言 中 “1 ”的 特殊 的 或 非 标准 的 符号 的 表示 可 以 在 词法 分 
析 器 中 解决 ， 不 会 影响 编译 器 其 他 部 分 的 设计 。 

把 词法 分 析 和 语法 分 析 分 开 后 ， 可 以 借助 很 多 工具 来 自动 地 构造 它们 。 本 书 将 介绍 这 类 工 
有 具 的 几 个 例子 。 

3.12 _ 记号、 模式、 词素 

在 词法 分 析 的 讨论 中 ,我们 使 用 术语 “记号 ”、“ 寞 式 "、“ 词 素 ” 表 示 特 定 的 含义 。 图 3- 
2 是 使 用 它们 的 例子 。 通 常 ， 在 输入 中 有 一 组 字符 串 会 产生 相同 的 记号 (作为 输出 )， 这 个 
字符 串 构成 的 集合 由 一 个 与 该 记号 相关 联 的 称 为 模式 的 规则 来 描述 。 这 个 模式 被 说 成 匹配 该 
集合 中 的 每 个 字符 串 。 词 素 是 源 程序 的 字符 序列 ， 由 一 个 记号 的 模式 来 匹配 。 例 如 ，Pascal 
语句 

const pi = 3.1416; 


中 的 子 串 pi 是 记号 “标识 符 ” 的 词素 。 
eo | were | 


const 
if 


<, <3, 2, <>, >, >= 



















模式 的 非 形式 描述 


const 


relation 
id 
num 
literal 


if 

< 或 <= 或 = 或 全 或 >= 或 > 
FRET SUF PEM 

任何 数字 常数 

在 "与 "之 间 除 "以 外 的 任何 字符 
图 3-2 记号 的 例子 


我 们 把 记号 作为 源 语言 文法 的 终结 符 ， 用 黑体 名 字 表 示 记 号 。 由 记号 的 模式 所 匹配 的 词素 
表示 源 程序 的 字符 串 ， 它 们 是 词法 单位 。 

在 多 数 程序 设计 语言 中 ， 下 列 结构 被 处 理 为 记号 : 关键 字 、 操 作 符 、 标 识 符 、 常 量 、 文 字 
串 和 标点 符号 ( 如 括号 、 逗 号 和 分 号 )。 在 上 面 的 例子 中 ， 当 源 程 序 中 出 现 字符 串 pi 时 ， 一 个 


pi, count, D2 
3.1416, 0, 6.02E23 
"core dumped” 
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表示 标识 符 的 记号 将 返回 给 语法 分 析 器 。 记 号 的 返回 通常 是 通过 传递 代表 这 个 记号 的 整数 来 实 
现 的 。 在 图 3-2 中 这 个 整数 被 指定 为 黑体 的 id。 

模式 是 描述 源 程 序 中 表示 特定 记号 的 词素 集合 的 规则 。 图 3-2 中 的 记号 const 的 模式 是 一 个 
字符 串 const， 它 是 一 个 关键 字 。 记 号 relation 的 模式 是 6 个 Pascal 关 系 操作 符 的 集合 。 为 了 能 
精确 地 描述 id ( 表示 标识 符 ) 和 num ( 表示 数 ) 这 样 更 复杂 的 记号 ， 我 们 将 使 用 3.3 节 介绍 的 
正规 表达 式 。 

某 些 语言 的 约定 给 词法 分 析 带 来 了 困难 。 例 如 ，Fortran 语 言 要 求 某 些 结构 出 现在 输入 行 的 
国定 位 置 ， 于 是 词素 对 准 (alignment) 对 确定 源 程序 的 正确 性 非常 重要 。 现 代 语 言 设计 的 倾向 
是 自由 格式 输入 ， 人 允许 各 种 结构 出 现在 输入 行 的 任何 地 方 。 因 此 这 个 问题 在 词法 分 析 中 不 再 是 
重要 的 了 。 

不 同 的 语言 在 空格 的 处 理 上 有 较 大 的 差别 。 在 一 些 语言 ( 如 Fortran 和 Algol 68) 中 ， 空 格 
无 意义 (文字 串 中 除外 )。 在 程序 中 可 以 随意 加 入 空格 来 改善 其 可 读 性 。 对 空格 的 约定 增加 了 
识别 记号 的 复杂 性 。 

Fortran 语 言 的 Do 语句 可 以 作为 典型 例子 来 说 明 它 给 识别 记号 带 来 的 困难 ， 在 语句 


po 5 I = 1.25 


中 , 一 直到 看 见 小 数 点 后 ， 才 能 确定 Do 不 是 关键 字 ， 而 是 标识 符 Do5I 的 一 部 分 。 另 一 方面 ， 
在 语句 


po 5 I = 1,25 


中 ， 有 7 个 记号 : 关键 字 DO、 语 名 标号 5 、 标 识 符 I、 操 作 符 = 、 常 数 1、 逗 号 和 常数 25。 在 该 
语句 中 ， 没 看 见 逗 号 之 前 ， 我 们 也 不 敢 确 定 DO 是 关键 字 。 为 了 减轻 这 种 不 确定 性 ，Fortran 77 
允许 标号 和 DO 语句 循环 变量 之 间 有 一 个 可 选 的 逗号 。 鼓 励 使 用 这 个 和 逗 号 ， 因 为 使 用 这 个 逗号 
可 以 使 po 语句 更 清晰 可 读 。 

很 多 语言 规定 某 些 字符 串 是 保留 的 ， 即 它们 的 含义 是 预定 义 的 ， 不 能 由 用 户 改 变 。 如 果 关 
键 字 不 是 保留 的 ， 那 么 词法 分 析 器 必须 能 区 分 出 关键 字 和 用 户 自 定义 的 标识 符 。 在 PL /I 语言 
中 关键 字 不 是 保留 的 ， 因 而 把 关键 字 从 标识 符 中 区 别 出 来 的 规则 相当 复杂 ， 从 下 面 的 PL/I 语 句 
我 们 就 可 以 清楚 地 看 出 这 一 点 。 


IF THEN THEN THEN = ELSE; ELSE ELSE = THEN; 


3.1.3 记号 的 属性 

如 果 不 止 一 个 记号 的 模式 能 匹配 一 个 词素 ， 词 法 分 析 器 必须 为 这 个 记号 提供 附加 的 关于 匹 
配 的 特殊 词素 的 信息 。 例 如 ， 模 式 num 既 能 匹配 字符 串 0 ， 也 能 匹配 字符 串 1 ， 此 时 代码 生成 
器 需要 知道 num 到 底 匹配 了 哪 一 个 字符 串 。 

词法 分 析 器 把 与 记号 有 关 的 信息 收集 到 记号 的 属性 中 。 记 号 影响 语法 分 析 ， 而 属性 影响 记 
号 的 翻译 。 在 实际 实现 时 ， 记 号 通常 只 有 一 个 属性 ， 即 指向 符号 表 中 一 个 表 项 的 指针 ， 与 记号 
有 关 的 信息 保存 在 这 个 对 应 的 表 项 中 。 为 了 诊断 错误 ， 我 们 不 仅 需 要 知道 匹配 标识 符 的 词素 ， 
而 且 还 需要 知道 这 个 词素 第 一 次 出 现 的 行 号 。 这 些 信 息 都 可 以 存储 在 符号 表 中 该 标识 符 对 应 的 
表 项 内 。 


例 3.1 Fortran 语 句 


E = M * C ¥# 2 
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中 的 记号 和 它们 的 属性 值 可 用 二 元 组 序列 表示 如 下 : 

<id， 指 向 符号 表 中 与 E 相 关 的 表 项 的 指针 > 

< assign_op, > 

<id， 指 向 符号 表 中 与 M 相 关 的 表 项 的 指针 > 

<mult op,> 

<id, 指向 符号 表 中 与 c 相 关 的 表 项 的 指针 > 

<exp_op, > 

< num， 整 数值 2》 
注意 ， 某 些 二 元 组 不 需要 属性 值 ， 它 的 第 一 个 分 量 足 以 标识 词素 。 在 上 述 例子 中 ， 记 号 num 的 
属性 是 一 个 整数 值 。 当 然 ， 编 译 器 也 可 以 把 形成 数 的 字符 串 存 人 符号 表 中 ， 并 让 记号 num 的 属 

[87j 性 是 指向 符号 表 中 相应 表 项 的 指针 。 口 

3.1.4 词法 错误 

因为 词法 分 析 器 不 能 从 全 局 的 角度 考察 源 程序 ， 所 以 能 在 词法 层 发 现 的 错误 是 有 限 的 。 如 
果 词 法 分 析 器 在 如 下 的 C 程 序 中 第 一 次 遇 到 fi 


fi ( a == f(x) ) °°: 


它 无 法 区 别 fi 究 竟 是 关键 字 if 的 错误 拼写 还 是 一 个 未 声明 的 函数 标识 符 。 由 于 fi 是 合法 的 标 
识 符 ， 词 法 分 析 器 必须 返回 该 标识 符 的 记号 ， 而 让 编译 器 的 其 他 阶段 去 处 理 这 种 错误 。 

有 时 会 出 现 由 于 剩余 输入 的 前 缀 不 能 和 任何 记号 的 模式 匹配 而 使 词法 分 析 器 无 法 处 理 的 情 
况 。 此 时 ， 最 简单 的 错误 恢复 策略 也 许 是 “紧急 方式 ”恢复 ， 即 反复 删 掉 剩余 输入 最 前 面 的 字 
符 ， 直 到 词法 分 析 器 能 发 现 一 个 正确 的 记号 为 止 。 这 种 恢复 技术 可 能 会 给 语法 分 析 带 来 一 些 麻 
烦 ， 但 在 交互 计算 环境 中 是 非常 有 效 的 。 

其 他 错误 恢复 动作 包括 : 

1. 删除 一 个 多 余 的 字符 。 

2. 插入 一 个 遗漏 的 字符 。 

3. 用 一 个 正确 的 字符 代替 一 个 不 正确 的 字符 。 

4. 交换 两 个 相 邻 的 字符 。 

这 样 的 错误 变换 可 以 用 于 对 输入 错误 的 修补 。 最 简单 的 策略 是 看 一 下 剩余 输入 的 前 缀 能 否 
通过 上 面 的 一 个 变换 变 成 一 个 合法 的 词素 。 这 种 策略 假设 大 多 数 词法 错误 是 多 、 漏 或 错 了 一 个 
字符 或 者 相 邻 的 两 个 字符 错位 的 结果 。 事 实 上 ， 这 种 假设 通常 (但 不 总 是 ) 是 正确 的 。 

在 程序 中 发 现 错误 的 一 种 方法 是 计算 把 一 个 错误 程序 转换 成 一 个 语法 上 正确 的 程序 所 需要 
的 错误 变换 个 数 的 最 小 值 。 当 把 一 个 错误 程序 转换 成 一 个 正确 程序 所 需 的 最 短 的 错误 变换 序列 
长 度 为 上 时 ， 我 们 说 这 个 程序 有 k 个 错误 。 最 小 距离 错误 校正 是 一 种 理论 上 的 标准 ， 但 因 其 实现 
起 来 代价 太 高 ， 实 际 上 并 不 常用 。 然 而 ， 一 些 试验 性 的 编译 器 在 进行 局 部 校正 时 确实 用 到 了 最 
小 距离 标准 。 


3.2 输入 缓冲 


本 节 讨 论 与 输入 缓冲 有 关 的 效率 问题 。 我 们 首先 介绍 一 种 双 缓 冲 输入 方案 ， 这 种 方案 在 为 
识别 记号 而 需要 进行 超前 扫描 的 情况 下 非常 有 用 。 然 后 ， 我 们 介绍 一 些 其 他 提高 词法 分 析 器 效 
率 的 技术 ， 如 使 用 标志 ( sentinel ) 标记 缓冲 区 边界 。 
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实现 词法 分 析 器 最 常用 的 三 种 方案 如 下 : 

1. 使 用 词法 分 析 器 生成 器 ( 如 将 要 在 3.5 节 介绍 的 Lex 编 译 器 )， 从 基于 正规 表达 式 的 说 明 自 
动产 生 一 个 词法 分 析 器 。 在 这 种 情况 下 ， 由 生成 器 提供 子 程序 实现 输入 流 的 读 取 和 缓冲 。 

2. 使 用 传统 的 程序 设计 语言 编写 词法 分 析 器 ， 并 使 用 该 语言 提供 的 IO 功能 对 输入 流 进行 
读 取 。 

3. 使 用 汇编 语言 编写 词法 分 析 器 ， 并 显 式 地 控制 输入 流 的 读 取 。 

这 三 种 方案 是 按照 实现 难度 递增 的 次 序 来 排列 的 。 不 幸 的 是 , 构造 的 词法 分 析 器 效率 越 高 ， 
构造 的 难度 就 越 大 。 尽 管 编译 器 的 后 面 各 阶段 在 概念 上 更 复杂 ， 但 由 于 词法 分 析 器 是 编译 器 中 
惟一 的 逐个 字符 读 取 源 程序 的 阶段 ， 所 以 它 可 能 会 耗费 大 量 的 时 间 。 因 此 ， 在 设计 编译 器 时 ， 
词法 分 析 器 的 速度 是 一 个 关键 因素 ， 本 章 将 用 很 大 篇 幅 介绍 实现 词法 分 析 器 的 第 一 种 方案 ， 即 
利用 自动 生成 器 自动 生成 词法 分 析 器 的 方案 。 此 外 还 将 介绍 一 些 对 手工 编写 词法 分 析 器 有 用 的 
技术 。3.4 节 将 讨论 状态 转换 图 。 在 手工 设计 词法 分 析 器 时 ， 状 态 转 换 图 是 非常 有 用 的 概念 。 
3.2.1 双 缓 冲 区 | 

对 很 多 源 语言 来 说 ， 在 一 个 词素 被 一 个 模式 匹配 上 之 前 ,词法 分 析 器 往往 需要 超前 扫描 该 
词素 后 面 的 若干 字符 。 第 2 章 的 词法 分 析 器 使 用 ungetc 函 数 将 超前 扫描 的 字符 退回 到 输入 流 
中 。 然 而 ， 这 种 方法 需要 大 量 的 移动 字符 时 间 。 因 此 人 们 开发 出 一 些 特殊 的 缓冲 技术 以 减少 这 
种 时 间 开 销 ， 但 是 ， 这 些 缓冲 技术 在 某 种 程度 上 依赖 于 系统 的 参数 ， 因 而 ， 本 节 只 能 简单 地 介 
绍 一 下 这 类 技术 的 原理 。 

我 们 把 一 个 缓冲 区 分 成 两 个 部 分 ， 每 部 分 能 容纳 N 个 字符 ， 如 图 3-3 所 示 。 一 般 来 说 ，N 
是 一 个 磁盘 块 中 字符 的 个 数 ， 如 1024 或 4096。 





forward 
lexeme_beginning 


图 3-3 分 成 两 部 分 的 输入 缓冲 区 


我 们 每 次 用 一 个 系统 读 命令 向 缓冲 区 的 每 半 部 分 读 和 人 N 个 字符 ， 而 不 是 每 读 人 一 个 字符 调 
用 一 次 读 命令 。 如 果 剩 余 的 输入 数据 不 足 N 个 字符 ， 则 在 缓冲 区 中 最 后 一 个 输入 字符 后 面 会 
读 进 来 一 个 特殊 字符 eof, eof 不 同 于 任何 其 他 的 输入 字符 ， 它 用 于 标识 源 文 件 的 结尾 ， 如 图 
3-3 所 示 。 

输入 缓冲 区 包括 两 个 指针 ， 在 两 个 指针 之 间 的 字符 串 就 是 当前 的 词素 。 一 开始 ， 两 个 指针 
都 指向 下 一 个 要 识别 的 词素 的 第 一 个 字符 上 。 然 后 ， 其 中 一 个 指针 ( 即 向 前 (forwara ) 指针 ) 
向 前 扫描 「， 直 至 发 现 一 个 与 某 个 模式 匹配 的 词素 为 止 。 一 旦 一 个 词素 被 确定 ， 向 前 指针 将 指向 
它 的 最 右 字符 。 在 处 理 完 这 个 词素 后 ， 两 个 指针 同时 定位 到 这 个 词素 的 一 个 字符 。 在 这 种 策略 
中 ,注释 和 空白 符 可 以 由 不 生成 记号 的 模式 来 匹配 。 

如 果 向 前 指针 将 要 移 过 缓冲 区 的 中 间 标 记 ， 则 往 缓冲 区 的 右 半 部 读 人 N 个 新 字符 。 如 果 向 
前 指针 将 要 移 过 缓冲 区 的 右 端 ， 则 往 其 左 半 部 读 人 N 个 新 字符 ， 且 将 向 前 指针 绕 回 到 缓冲 区 
的 头 部 继续 处 理 。 

这 种 缓冲 机 制 在 多 数 情况 下 都 非常 有 效 ， 但 限制 了 超前 扫描 的 数量 。 在 超前 扫描 时 ， 若 向 
前 指针 需要 移动 的 距离 超过 了 缓冲 区 的 长 度 ， 词 法 分 析 器 就 无 法 识别 出 记号 。 例 如 ， 如 果 在 对 
PL/I 程序 中 的 我 们 看 到 
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DECLARE ( ARG1, ARG2, ... , ARGn ) 


在 扫描 到 右 括号 后 面 的 字符 之 前 ， 我 们 无 法 确定 DECLARE 是 关键 字 还 是 数组 名 称 。 在 这 两 种 
情况 下 ， 词 素 都 在 第 二 个 E 字 符 处 结束 。 需 要 超前 扫描 的 字符 数量 与 参数 个 数 成 正比 ， 而 参数 
个 数 在 原则 上 是 不 限制 的 。 

3.2.2 标志 


如 果 我 们 采用 图 3-3 的 模式 ， 在 每 次 移动 向 前 指针 时 都 必须 检查 是 否 到 了 缓冲 区 某 半 部 分 
的 末尾 ， 若 是 ， 则 需 重 装 缓冲 区 的 另 半 部 分 ， 

即 需 要 按照 图 3-4 的 算法 来 移动 向 前 指针 。 i£ forvardi EM KIR RITE then begin 

重 装 缓冲 区 第 二 部 分 : 


forward := forward + | 


如 果 先 前 指针 不 在 缓冲 区 某 半 部 分 的 末 
尾 ， 图 3-4 的 代码 每 次 移动 向 前 指针 时 都 需要 end 


vey 、 why : else if forward 在 缓冲 区 第 二 部 分 末尾 then begin 
做 两 次 测试 。 如 果 我 们 在 缓冲 区 两 部 分 的 结尾 forward RE 





处 各 设置 一 个 标志 字符 , 则 可 以 减少 一 次 测试 。 将 forward 移 到 缓冲 区 第 一 部 分 开始 
这 个 “标志 ”必须 是 源 语言 词素 集合 的 特殊 字 m ad porada 
符 。 一 个 比较 自然 的 选择 就 是 eof. 图 3-5 的 组 Orward := forward + 


冲 区 分 配 与 图 3-3 一 致 ， 只 是 在 其 基础 上 加 入 图 3-4 移动 向 前 指针 的 算法 
了 “标志 ”字符 。 





forward 
lexeme_beginning 


图 3-5 在 两 半 部 分 的 末尾 加 入 “标志 ”的 缓冲 区 
对 图 3-5 所 示 的 缓冲 区 分 配 , 我 们 可 采用 forward := forward + | 
图 3-6 中 的 算法 来 移动 向 前 指针 并 测试 源 文件 。 | 1 1 Forward := eof then begin 


是 否 结束 。 在 大 部 分 情况 下 ， 算 法 只 需 测试 一 ee 

次 ,以 判断 forward: 指 针 是 否 已 经 指向 eof, forward := forward + 1 

只 有 当 到 达 缓 冲 区 半 部 分 的 未 尾 或 源 文件 尾 crit forward 在 第 一 部 分 术 尼 then begin 

时 ,算法 才 需 要 进行 更 多 的 测试 。 由 于 在 两 个 重 装 第 一 部 分 : 

eof 之 间 有 N 个 字符 ， 每 个 输入 字符 的 平均 检 wna EEL 

查 次 数 近似 于 1。 else/* eof 在 表示 输入 结束 的 缓冲 区 中 */ 
我 们 还 需要 确定 如 何 处 理 向 前 指针 当前 所 终止 词法 分 析 





指 的 字符 。 该 字符 可 能 是 一 个 记号 的 结尾 标 
E, 也 可 能 是 正 被 识别 的 关键 字 的 一 部 分 ， 还 图 3-6 包含 标志 的 缓冲 区 中 移动 向 前 指针 的 算法 
可 能 是 其 他 各 种 情况 。 如 果 所 选 的 实现 语言 支持 case 语 句 ， 则 可 以 用 它 来 完成 这 些 测试 。 例 如 ， 
我 们 可 用 case 语句 的 一 个 分 支 来 实现 测试 : 

if forwardt = eof 


3.3 记号 的 描述 


正规 表达 式 是 表示 模式 的 一 种 重要 方法 。 每 个 模式 匹配 一 个 字符 串 集 。 因 此 正规 表达 式 将 
作为 字符 串 集 的 名 字 。3.5 节 将 把 这 种 表示 法 扩展 为 词法 分 析 的 模式 制导 语言 。 
3.3.1 串 和 语言 


术语 字母 表 或 字符 类 表示 有 限 符 号 的 集合 。 符 号 的 典型 例子 是 字母 和 字符 。 集 合 {0, 1} 是 
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二 进 制 字 母 表 。ASCIL AM EBCDIC 是 两 个 计算 机 字母 表 实 例 。 

字母 表 上 的 字符 囊 是 该 字母 表 中 符号 的 有 穷 序 列 。 在 语言 理论 中 ， 术 语句 子 和 字 常 作为 
“SSB” HAMA. FS s 的 长 度 是 出 现在 s 中 的 符号 的 个 数 ， 通 常 记 作 | s |. PIN, 
banana 是 长 度 为 6 的 符号 串 。 空 字符 串 是 长 度 为 0 的 特殊 符号 串 ， 用 e 表示 。 图 3-7 概 括 了 用 于 
表示 字符 串 各 部 分 的 常用 术语 。 


去 掉 串 s 尾部 的 0 个 或 多 个 符号 后 得 到 的 字符 串 。 例 如 ， 
s 的 前 组 ae 
ban 是 banana 的 前 组 
ERP s 头 部 的 0 个 或 多 个 符号 后 得 到 的 字符 串 。 例 如 ， 
nana 是 banana 的 后 缀 
ER s 的 一 个 前 级 和 一 个 后 缀 后 得 到 的 字符 串 。 例 如 ， 
a nar 是 panana 的 一 个 子 串 。s 的 每 个 前 缀 和 后 缀 都 是 s 
SHERRE | 的 一 个 于 串 ， 但 子囊 并 不 总 是 s MAREE. ERT 
FRES, s Me 是 s WHR. RATS 
s 的 真 前 级 如 果 非 空 串 EP * 的 前 缀 CR. FE) WA sex, 
(AER, KF HE) 则 称 x 是 s HAMA ( 真 后 级 、 真 子 串 ) 


从 串 s 中 删除 0 个 或 多 个 符号 后 得 到 的 串 ( 这 些 被 删除 的 
符号 可 以 不 相 邻 )。 例 如 ，baaa 是 banana 的 子 序列 


s 的 后 组 


s 的 子 序列 


图 3-7 字符 串 的 各 部 分 的 术语 


语言 是 给 定 字母 表 上 的 任意 一 个 字符 串 集合 。 这 个 定义 是 广义 的 。 像 空 集 和 仅 包含 空 符号 
串 的 集合 | € 上 这样 的 抽象 语言 也 符合 这 个 定义 。 所 有 语法 正确 的 Pascal 程 序 的 集合 和 所 有 请 
法 正确 的 英语 句子 的 集合 也 都 符合 此 定义 ， 当 然 ， 要 描述 后 两 个 集合 要 难得 多 。 注 意 ， 这 个 定 
义 并 没有 把 任何 意义 赋予 语言 中 的 符号 串 ， 这 个 问题 将 在 第 5 章 讨论 。 

WR x Aly RASH, 那么 x 和 y 的 连接 ( 记 作 x ) 是 把 y 连接 到 x 后 面 所 形成 的 符号 串 。 
例如 ， 如 果 x= dog H y= house, 那么 y= doghouse。 对 连接 运算 而 言 ， 空 符号 串 是 一 个 
单位 元 ， 也 就 是 说 ,se = Es=s。 

. 如 果 把 两 个 符号 串 的 连接 看 成 是 这 两 个 串 的 “乘积 ”"， 我 们 可 以 定义 符号 串 的 “指数 ”如 下 ; 
定义 为 Ee， 对 于 i>0，si Ass, ANes Mes 本 身 ， 所 以 s1= s， s=ss, $=sss, KWEH, 
3.3.2 语言 上 的 运算 

有 一 些 重要 的 运算 可 以 应 用 到 语言 中 。 对 词法 分 析 而 言 ， 我 们 感 兴趣 的 是 并 、 连 接 和 闭 包 
运算 ， 图 3-8 中 给 出 了 这 些 运算 的 定义 。 我 们 还 可 以 将 “指数 ”运算 符 推广 到 语言 上 ， 即 把 1 
定义 为 {e }，Li 定 义 为 L"! 工 ， 即 区 连接 自己 i-1 次 。 


例 3.2 令 工 表示 集合 {A, B,…, Z, a, b, …, z}, D 表示 集合 {0, 1, …, 9}。 我 们 可 以 将 L 看 
成 是 由 大 、 小 写字 母 组 成 的 字母 表 ， 将 D 看 成 是 10 个 数字 组 成 的 字母 表 。 同 时 ， 由 于 单个 符号 
也 可 以 看 成 长 度 为 1 的 符号 串 ， 我 们 可 以 把 了 上 和 D 分 别 看 成 是 有 穷 的 语言 集 。 下 面 是 将 图 3-8 
中 定义 的 运算 作用 于 工 和 DD 所 得 到 新 语言 : 

1. LUD 是 字母 和 数字 的 集合 。 

2. LD 是 一 个 字母 后 随 一 个 数字 的 符号 串 的 集合 。 

3. + 是 由 四 个 字母 构成 的 符号 串 的 集合 。 

4. L* 是 所 有 字母 构成 的 串 ( 包括 € ) HEA. 
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5. 上 (LUD)* 是 所 有 以 字母 开头 的 字母 数字 串 的 集合 。 
6. D+ 是 由 一 个 或 多 个 数字 构成 的 数字 串 的 集合 。 口 












上 和 MM 的 并 ( 记 作 LUM) LUM = {sl SR FLISE FM} 








L Al M 的 连接 ( 记 作 LM) 





LM = {st1s 属 于 L 且 1 启 于 M} 





L 的 克 林 (Kleene) H 
GEHE L*) 


Lt = UL 
iz 
L* 表 示 0 个 或 多 个 上 的 连接 
Lt = UL 


LERE GEHE L) _ im} 
URBMIPRE TLE 


图 3-8 语言 上 的 运算 的 定义 
3.3.3 正规 表达 式 
在 Pascal 语 言 里 ， 标 识 符 是 一 个 字母 后 跟随 零 个 或 多 个 字母 或 数字 组 成 的 符号 串 ， 即 一 个 
标识 符 是 例 3.2 中 5 所 定义 的 集合 中 的 元 素 。 本 节 将 介绍 一 种 叫 正 规 表 达 式 的 表示 法 ， 它 使 得 我 
们 能 够 精确 地 定义 这 样 的 集合 。 使 用 这 种 表示 法 ，Pascal 的 标识 符 集 可 以 定义 为 
letter ( letter | digit ) * 


其 中 竖 线 的 含义 是 “或 ”"， 插 号 用 于 把 子 表达 式 组 在 一 起 ， 星 号 的 含义 是 “ 零 个 或 多 个 ”括号 
中 的 表达 式 ，letter 和 (letter | digit)* 的 并 列表 示 两 者 的 连接 。 

建立 正规 表达 式 时 ， 可 以 先 定义 简单 的 正规 表达 式 ， 然 后 用 它们 构造 出 更 复杂 的 正规 表达 
式 。 每 个 正规 表达 式 r 表示 一 个 语言 L(r)。 这 些 定义 规则 说 明 Lr) 是 怎样 由 + 的 子 表达 式 所 表 
示 的 语言 以 不 同 的 方式 组 合 形 成 的 。 

下 面 是 定义 字母 表 于 上 的 正规 表达 式 的 规则 ， 每 一 条 规则 后 带 有 所 定义 的 正规 表达 式 所 表 
示 的 语言 的 一 个 说 明 ; 

1. 是 正规 表达 式 ， 它 表示 {e }， 即 包含 空 串 的 集合 。 

2. 如 果 a 是 并 上 的 符号 ， 那 么 a 是 正规 表达 式 ， 表 示 {e}， 也 就 是 包含 符号 串 a 的 集合 。 
虽然 我们 使 用 相同 的 表示 法 ， 但 正规 表达 式 a. ASB a 和 符号 a 这 三 者 的 含义 是 不 同 的 ， 
我 们 可 以 从 上 下 文中 清楚 地 区 分 出 所 谈 到 的 a 的 具体 含义 。 

3. 假定 r 和 s 都 是 正规 表达 式 ， 分 别 表 示 语 言 CD 和 Ls), W: 

a) (r) | (s) 是 正规 表达 式 ， 表 示 Lr) Us) 

b) (7)(s) 是 正规 表达 式 ， 表 示 LULO) 

c) (r)* 是 正规 表达 式 ， 表 示 (L(7))*。 

d) (7) 是 正规 表达 式 ， 表 示 Lr). © 
正规 内 达 式 表示 的 语言 叫做 正规 集 。 

正规 表达 式 的 说 明 是 一 种 递归 定义 。 规 则 1、?2 是 定义 的 基础 。 我 们 把 e 和 出 现在 正规 表达 
式 中 的 工 中 的 符号 称 为 基本 符号 。 规 则 3 提供 了 归纳 的 步骤 。 

如 果 采 用 如 下 约定 : 





O ”这 条 规则 说 明 如 果 需 要 ， 我 们 可 以 用 括号 把 正规 表达 式 括 起 来 。 
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1. 一 元 运算 符 * 具有 最 高 的 优先 级 ， 并 且 是 左 结合 的 。 

2. 连接 的 优先 级 次 之 ， 也 是 左 结合 的 。 

3.1 的 优先 级 最 低 ， 同 样 是 左 结合 的 。 
那么 ,在 正规 表达 式 中 可 以 避免 一 些 不 必要 的 括号 。 在 此 约定 下 ，(a)((b)*(c)) 等 价 于 alb*c。 
这 两 个 表达 式 都 表示 由 单个 a 构成 的 符号 串 或 者 由 0 个 或 多 个 b 后 面 跟着 一 个 c 组 成 的 符号 
串 集合 。 

513.3 4X = {a,b}. 

1. 正规 表达 式 alb 表 示 集 合 {a, b}o 

2. 正规 表达 式 (alp)(alb) 表示 {aa, ab, ba, bb}, BN a 和 b 组 成 的 长 度 为 2 的 符号 串 集合 。 
表示 同样 集合 的 另 一 正规 表达 式 是 aalablbalbb。 

3. 正规 表达 式 ax 表示 由 零 个 或 多 个 a 组 成 的 所 有 串 的 集合 {e , a, aa, aaa, +} 

4. 正规 表达 式 (alb)* 表示 由 零 个 或 多 个 a 或 构成 的 符号 串 集 合 ， 即 由 a 和 4。 构成 的 所 有 
符号 串 的 集合 。 这 个 集合 也 可 用 另 一 个 正规 表达 式 (a*b*)* 来 表示 。 

5. 正规 表达 式 ala*b 表示 包含 串 a 和 零 个 或 多 个 a 后 跟随 一 个 b 构成 的 符号 捉 集 合 。 OO 

如 果 两 个 正规 表达 式 + As 表示 同样 的 语言 ， 则 称 > 和 8 等 价 , 记 作 r=s。 PR, (alb) = (bla)。 

正规 表达 式 遵 循 一 些 代数 定律 ， 它 们 可 以 用 于 正规 表达 式 的 等 价 变换 ， 图 3-9 是 正规 表达 
Ar, s 和 1 遵循 的 代数 定律 。 





公 理 H £ 
ris = s|r | 是 可 交换 的 
rl(sjr) = (rls)|: | 1 是 可 结合 
(rs)t = r(st) 连接 是 可 结合 的 


relo = rsirt | 连接 对 1 是 可 分 配 的 


islor = sr|tr 


er=-r 


€ 是 连接 的 单位 元 
re 三 了 
r* = (rle* *H E 间 的 关系 
r** = r* ERTH 


图 3-9 正规 表达 式 的 代数 性 质 
3.3.4 正规 定义 
为 表示 方便 ， 我 们 可 能 希望 为 正规 表达 式 命名 ， 并 用 这 些 名 字 来 定义 正规 表达 式 ， 就 如 同 
它们 也 是 符号 一 样 。 如 果 z 是 基本 符号 的 字母 表 ， 那 么 正规 定义 是 如 下 形式 的 定义 序列 ; 
di >r, 
d2 >72 


dn > Fa 


其 中 ， 每 个 d; 都 是 一 个 名 字 ， 并 且 它 们 各 不 相同 ， 每 个 ri 是 ZU (di, dz, ee., di-1} ( 即 基本 符号 
和 前 面 定义 的 名 字 ) 中 符号 上 的 正规 表达 式 。 由 于 限制 了 每 个 x; 中 只 含有 中 的 符号 和 在 它 
之 前 定义 的 名 字 ， 所 以 我 们 可 以 通过 反复 地 用 名 字 所 代表 的 正规 表达 式 蔡 代 该 名 字 的 方法 为 任 
何 一 个 ri 构造 王 上 的 正规 表达 式 。 如 果 xr; 用 到 了 d, HHA Si, W r 是 递归 定义 的 ， 而 且 这 
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个 替换 过 程 不 会 中 止 。 
为 了 区 别名 字 和 符号 ， 用 黑体 字 表示 正规 定义 中 的 名 字 。 
例 3.4 ”如 前 面 所 述 ，Pascal 语 言 的 标识 符 集合 是 以 字母 开头 的 字母 数字 串 的 集合 ， 这 个 集 
合 的 正规 定义 是 : 
letter ~a |B|- |zjaļb| > |z 
c’ | 9 


digit + 0 | 1 | 
id — letter ( letter | digit )* 





口 


例 3.5 ” Pascal 语言 中 的 无 符号 数 是 形 如 5280、39 .37、6 .336E4 或 1.894E-4 这 样 的 符 
号 串 。 下 面 的 正规 定义 给 出 了 这 类 符号 串 的 精确 说 明 ; 
digit ~ 0 |1|---|9 
digits + digit digit* 
optional fraction — . digits | « 
optional_exponent > ( E( + | - | e) digits ) | € 
num > digits optional fraction optional_exponent 


在 这 个 定义 中 ，optional_fraction EFP (空缺 ) 或 小 数 点 后 再 跟 上 一 个 或 多 个 数字 。 如 果 
optional_exponent 不 是 空 串 ， 则 是 E 后 随 一 个 可 选 的 + 号 或 - 号 ,再 跟 上 一 个 或 多 个 数字 。 
注意 ， 小 数 点 后 至 少 要 有 一 个 数字 ， 所 以 num 不 能 匹配 1. ， 但 能 匹配 1.0。 口 


3.3.5 缩写 表示 法 

在 正规 表达 式 中 ， 某 些 结构 出 现 频繁 ， 为 方便 起 见 ， 我 们 可 以 用 缩写 形式 表示 它们 。 

1. 一 个 或 多 个 实例 。 一 元 后 级 操作 符 + 的 意思 是 “一 个 或 多 个 实例 ”。 如 果 r 是 表示 语言 
元 站 的 正规 表达 式 ， 那 么 O 是 表示 语言 (LUY) 的 正规 表达 式 。 正 规 表 达 式 a+ 表示 由 一 个 或 多 
个 a 构 成 的 所 有 串 的 集合 。 操 作 符 ， 和 操作 符 * 具 有 同样 的 优先 级 和 结合 性 。 代 数 恒等式 r* = 六 
le 与 + = rr* 表 达 了 克 林 闭 包 * 和 正 闭 包 :* 这 两 个 操作 符 间 的 关系 。 

2. 零 个 或 一 个 实例 。 一 元 后 织 操 作 符 ? 的 意思 是 “ 零 个 或 一 个 实例 "。r? 是 r le 的 缩写 形 
式 。 如 果 r 是 正规 表达 式 ， 则 (x)? 是 表示 语言 KmU{e } 的 正规 表达 式 。 例 如 ， 使 用 * 和 ? 操作 
符 ， 可 以 重 写 例 3.5 中 num 的 正规 定义 如 下 : 

digit > o|1|---|9 
digits — digit’ 
optional_fraction — ( . digits )? 
optional_exponent — ( E (+ | - )? digits )? 
num — digits optional_fraction optional_exponent 


3. FARK, [abc] (其 中 a、b 和 c 是 字母 表 中 的 符号 ) 表示 正规 表达 式 alblc。 缩写 的 字符 
类 [a-z] 表示 正规 表达 式 alb1…1z。 使 用 字符 类 , 我 们 可 以 用 下 述 正规 表达 式 描述 标识 符 : 

[A- Za-— z][A—Za- z0-9]* 
3.3.6 非 正规 集 

某 些 语 言 不 能 用 正规 表达 式 描 述 。 为 了 说 明正 规 表 达 式 的 描述 能 力 有 限 ， 我 们 给 出 一 些 不 
能 用 正规 表达 式 表 示 的 程序 设计 语言 结构 的 例子 。 对 这 些 结论 的 证 明 ， 见 参考 文献 。 

正规 表达 式 不 能 用 于 描述 均衡 或 艇 套 结构 。 例 如 ， 具 有 配对 括号 的 符号 串 集 合 不 能 用 正规 
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表达 式 描 述 ， 但 它们 可 以 用 上 下 文 无 关 文 法 来 描述 。 

重复 符号 串 不 能 用 正规 表达 式 表示 。 集 合 (wewl w 是 a M b 组 成 的 串 } 不 能 用 正规 表达 式 
描述 ， 也 不 能 用 上 下 文 无 关 文 法 来 说 明 。 

正规 表达 式 只 能 表示 固定 次 数 的 重复 或 给 定 结构 的 没有 指定 次 数 的 重复 。 由 于 正规 表达 式 
不 能 比较 任意 两 个 数 是 否 相 等 ， 因 此 我 们 不 能 用 正规 表达 式 描述 早期 Fortran 语言 中 形 如 
nmHaiaz…an 的 Hollerith 字符 串 ， 因 为 H 后 面 的 字符 数目 要 等 于 H 前 面 的 十 进 制 数 。 


3.4 记号 的 识别 


上 一 节 我 们 关心 的 是 如 何 描述 记号 ， 这 一 节 将 讨论 怎样 识别 记号 。 本 节 将 以 下 述 文法 定义 
的 语言 作为 例子 来 讨论 记号 的 识别 。 


例 3.6 考虑 下 述 文法 片断 : 


stmt > if expr then stmt 
| if expr then stmt else stmt 
| e 
expr 一 term relop term 
| term 
term > id 
| num 


其 中 ， 终 结 符 证 、then else. relop. id 和 num 产生 由 以 下 正规 定义 给 出 的 串 的 集合 : 


if > if 
then — then 
else > else 
relop > < | <= | = | <> | > | >= 
id — letter ( letter | digit )* 
num — digitt ( . digit* )? ( EC +|- )? digit? )? 


HEH, letter 和 digit 的 定义 与 前 面相 同 。 
对 这 个 给 定 的 语言 ,词法 分 析 器 将 识别 关键 字 if、then、else 和 由 relop (关系 操作 符 )、 
id (标识 符 ) 和 num ( 数 ) 表示 的 词素 。 为 简单 起 见 ， 我 们 假定 关键 字 是 保留 的 ， 也 就 是 说 ， 
它们 不 能 作为 标识 符 使 用 。 类 似 于 例 3.5， 这 里 的 num 表示 Pascal 中 的 无 符号 整数 和 实数 。 
此 外 ,我 们 还 假定 词素 由 空白 符 分 隔 。 空 白 符 是 空格 、 制 表 符 、 换 行 符 组 成 的 非 空 序列 。 
词法 分 析 器 还 要 完成 去 掉 空白 符 的 任务 。 这 个 














任务 通过 把 输入 串 与 如 下 的 ws 正规 定义 相 比 属 性 fa 
较 来 完成 : 
delim — blank | tab | newline 
ws > delim* - 
指向 符号 表 表 项 的 指针 
如 果 发 现 了 与 ws 匹配 的 字符 串 ， 则 词法 分 析 指向 符号 表 表 项 的 指针 
器 不 返回 记号 给 语法 分 析 器 ， 继 续 识别 空白 符 r 
后 面 的 记号 ， 然 后 把 它 返回 给 语法 分 析 器 。 EQ 
我 们 的 目标 是 构造 一 个 词法 分 析 器 ， 这 个 NE 
词法 分 析 器 能 利用 图 3-10 给 出 的 翻译 表 在 输入 组 or 
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相应 的 记号 和 属性 值 的 二 元 组 。 关 系 操作 符 的 属性 值 由 符号 常量 LT、LE、EQ、NE、GT 和 GE 
给 出 。 口 
3.4.1 状态 转换 图 

作为 构造 词法 分 析 器 的 中 间 步 双 ， 我 们 先 来 构造 状态 转换 图 (transition diagram )。 状 态 转 
换 图 描绘 语法 分 析 器 为 得 到 下 一 个 记号 而 调用 词法 分 析 器 时 词法 分 析 器 要 做 的 动作 ， 如 图 3-1 
所 示 。 假 设 输入 缓冲 区 如 图 3-3 所 示 ， 并 且 词 素 开始 (lexeme-beginning ) 指针 指向 上 次 发 现 的 
词素 后 面 的 字符 。 当 向 前 指针 扫描 输入 流 字 符 时 ， 我 们 用 状态 转换 图 来 记录 所 读 信息 的 轨迹 ， 
方法 是 在 读 字 符 的 过 程 中 我 们 不 断 地 在 状态 转换 图 的 各 位 置 之 间 移动 。 

状态 转换 图 的 位 置 用 圆圈 表示 ， 叫 做 状态 。 状 态 间 由 箭头 连接 ， 称 为 边 。 由 状态 s 到 状态 
r 的 边 上 标记 的 字符 表示 使 状态 s 转换 到 状态 r 的 输入 字符 。 标 记 other 表示 任意 一 个 未 被 离 
开 状 态 s 的 边 所 标定 字符 。 

本 节 假 定 状态 转换 图 是 确定 的 ， 即 没有 一 个 符号 可 以 同时 与 离开 一 个 状态 的 两 条 以 上 的 边 
的 标记 匹配 。3.5 节 将 放宽 这 个 条 件 ， 使 词法 分 析 器 的 设计 更 加 简单 。 如 果 使 用 恰当 的 工具 ， 
词法 分 析 器 的 实现 会 更 容易 。 

状态 转换 图 中 具有 一 个 状态 标记 为 start 状态 ， 这 个 状态 称 为 初始 状态 。 识 别 记号 时 ,我 
们 将 从 这 个 状态 开始 。 有 些 状态 可 以 具有 动作 ， 当 控制 流 到 达 一 个 具有 动作 的 状态 时 ， 我 们 将 
执行 这 些 动作 。 当 进入 一 个 状态 时 ， 我 们 需要 读 下 一 个 输入 字符 。 若 存在 一 个 离开 当前 状态 的 
边 ， 其 标记 和 读 人 字符 匹配 ， 控 制 就 转 到 由 这 条 边 指向 的 状态 ， 否 则 表示 失败 。 

图 3-11 是 模式 > = 和 > 的 状态 转换 图 。 它 的 开始 状态 是 状态 0。 在 状态 0 读 下 一 个 字符 ， 如 
果 该 字符 是 > ， 则 转向 状态 6， 否 则 便 告 识 


别 > 或 >= 失败 。 N e — (6)———G) 
到 达 状 态 6 时 ， 读 下 一 个 字符 ， 如 果 它 other 


是 = ， 则 转向 状态 7， 和 否则 标 有 other 的 边 、 
表明 已 经 转向 状态 8。 在 状态 7 上 有 双 图 ， 表 图 3-11 > = 和 > 的 状态 转交 图 
示 它 是 接受 状态 。 当 进入 这 个 状态 时 ， 状 态 转换 图 识别 记号 了 > =. 

请 注意 ， 如 果 按 照 从 start 状态 到 达 接 受 状态 8 的 边 的 顺序 ， 则 意味 着 > 和 一 个 与 之 无 关 的 
字符 已 经 被 读 过 。 由 于 这 个 无 关 字符 不 是 关系 操作 符 > 的 一 部 分 ， 而 是 下 一 个 词素 的 一 部 分 ， 
所 以 向 前 指针 必须 回 退 一 个 字符 。 状 态 上 的 * 表示 向 前 指针 必须 回 退 一 个 字符 。 

通常 可 能 有 多 个 状态 转换 图 ， 每 个 图 说 明 一 组 记号 。 如 果 沿 着 一 个 状态 转换 图 识别 输入 字 
符 串 时 失败 , 我 们 需要 把 向 前 指针 回 退 到 进入 该 图 开始 状态 时 该 指针 所 指向 的 输入 字符 串 位 置 ， 
并 启动 下 一 个 状态 转换 图 。 因 为 在 状态 
转换 图 的 开始 状态 ,词法 分 析 器 的 词素 
开始 指针 和 向 前 指针 都 指向 同一 个 位 © returncretop, we 
置 ， 所 以 向 前 指针 被 回 退 到 词素 开始 指 
针 所 指向 的 位 置 。 如 果 我 们 在 所 有 状态 。 Q) returner 29 
转换 图 上 都 失败 了 ， 则 意味 着 输入 字符 i 
串 有 词法 错误 。 这 时 ， 我 们 需要 调用 错 GY return(relop. cE) 
误 恢复 程序 进行 错误 处 理 。 


Start < 





$13.7 图 3-12 给 出 了 记号 relop 的 图 3-12 关系 操作 符 的 状态 转换 图 
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状态 转换 图 。 注 意 ， 图 3-11 中 的 状态 转换 图 只 是 这 个 更 复杂 的 状态 转换 图 的 一 部 分 。 口 


例 3.8 因为 关键 字 是 字母 序列 ， 所 以 它们 也 符合 标识 符 的 规则 ， 即 由 字母 开头 的 字母 和 
数字 的 序列 。 一 般 来 说 ， 我 们 不 为 关键 字 单 独 构造 状态 转换 图 ， 而 是 把 关键 字 看 成 特殊 的 标识 
符 如 在 2.7 节 所 述 。 当 到 达 图 3-13 的 接受 状态 时 ， 执 行 一 段 代 码 ， 以 确定 这 次 识别 的 词素 是 关键 
字 还 是 标识 符 。 


letter 或 digit 


letter other * 
(9) (10 return(gettoken(), install_id()) 
图 3-13 标识 符 和 关键 字 的 状态 转换 图 


把 关键 字 从 标识 符 中 分 离 出 来 的 一 种 简单 技术 是 适当 地 初始 化 符号 表 ( 符号 表 中 保存 与 
标识 符 有 关 的 信息 )。 对 于 图 3-10 中 的 记号 ,我 们 需要 在 开始 扫 措 输入 字符 之 前 把 字符 串 if、 
then 和 else 填 入 符号 表 。 这 些 符号 的 记号 也 将 被 记录 在 符号 表 中 ， 以 便 它们 在 输入 字符 
捉 中 被 识别 出 来 时 ， 返 回 它们 的 记号 。 图 3-13 中 接受 状态 旁边 的 return 语 句 分 别 使 用 
gettoken ( ) 和 install_id ( ) 来 获得 要 返回 的 记号 和 属性 值 。 过 程 install_id ( ) 访 问 缓冲 区 ， 
标识 符 词素 被 定位 在 其 中 ， 并 用 该 词素 查 符号 表 ， 如 果 在 符号 表 中 找到 了 该 词素 ， 当 它 被 标 
记 为 关键 字 时 ，install_id ( ) 返 回 9， 当 它 是 程序 变量 时 ，install_id ( ) 返 回 指向 相应 符号 表 
表 项 的 指针 。 如 果 在 符号 表 中 没有 找到 该 词素 ， 则 把 该 词素 作为 变量 填 人 符号 表 中 ， 并 返回 
指向 新 建 表 项 的 指针 。 

WE gettoken ( ) 也 以 类 似 的 方式 在 符号 表 中 查找 词素 。 如 果 该 词素 是 个 关键 字 ， 则 返回 相 
应 的 记号 ， 否 则 返回 记号 id。 

如 果 有 要 增加 的 关键 字 ， 无 需 修 改 状 态 转换 图 ， 只 需 将 新 增 关键 字 对 应 的 字符 串 和 记号 填 
人 符号 表 即 可 。 口 


如 果 手 工 编写 词法 分 析 器 ， 把 关键 字 先 放 进 符号 表 的 技术 是 很 重要 的 。 如 果 不 这 样 做 ， 一 
个 典型 的 程序 设计 语言 的 词法 分 析 器 的 状态 数 会 达到 凡 百 个 。 如 果 使 用 这 种 技术 ， 需 要 的 状态 
数 可 能 不 到 一 百 个 。 


613.9 ” 当 我 们 为 如 下 正规 定义 所 给 定 的 无 符号 数 构造 识别 器 时 可 能 会 发 现 很 多 问题 : 
num -digit+ ( .digit+ )? (E(+|-)? digit+ )? 


注意 ， 这 个 定义 是 digits fraction? exponent? 的 形式 ， 后 两 部 分 是 可 选 的 。 

一 个 给 定 记 号 的 词素 必须 是 最 长 的 。 例 如 ， 当 输入 串 是 12 .3EB4 时 ， 词 法 分 析 器 不 应 该 在 
发 现 12 或 12 .3 后 就 停止 。 在 图 3-14 中 ， 起 始 状 态 25 、20、12 在 读 和 人 12、12.3、12 .3E4 后 分 
别 到 达 接 受 状 态 ， 这 里 假设 12 .3E4 后 面 是 一 个 非 数 字 的 字符 。 以 25、20、12 为 开始 状态 的 状 
态 转换 图 分 别 用 来 识别 digits. digits fraction 和 digits fraction? exponent。 因 此 ， 我 们 选择 
起 始 状态 的 顺序 应 该 是 12、20 和 25。 

当 到 达 接 受 状态 19、24 或 27 后 ， 调 用 过 程 install_num， 将 词素 插入 到 存放 数 的 表 中 ， 并 返 
回 指向 新 建 表 项 的 指针 。 词 法 分 析 器 返回 这 个 指针 (作为 词素 的 值 ) 以 及 记号 num, 口 


有 关 不 符合 记号 正规 定义 语言 的 信息 可 以 用 来 指出 输入 的 错误 。 例 如 ， 当 输入 为 1 .<x 时 ， 
我 们 将 在 状态 14 和 22 ( 图 3-14 ) 处 遇 到 输入 字符 < 时 失败 。 我 们 希望 能 够 指出 这 个 错误 并 继续 
执行 ， 就 好 像 输入 是 1 .0<x 一 样 ， 而 不 是 返回 1。 这 些 想法 也 可 以 用 来 简化 状态 转换 图 ， 因 为 


Start 
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错误 处 理 可 以 使 某 些 导致 失败 的 错误 得 到 恢复 。 





ste 9 . digi (2 th 
Start Go) Qi) È igit B r) 
digit 
() other 


start digit * 
ORO 
图 3-14 _ Pascal 中 无 符号 数 的 状态 转换 图 


我 们 可 以 使 用 多 种 方法 避免 图 3-14 中 的 多 余 匹 配 。 一 种 方法 是 将 这 些 状态 转换 图 合并 成 
一 张 图 ， 一 般 来 说 这 个 任务 比较 艰巨 。 另 一 种 方法 是 改变 对 失败 的 响应 策略 。 本 章 后 面 将 介 
绍 一 种 方法 ， 这 种 方法 使 我 们 能 越过 几 个 接受 状态 ， 当 失败 时 ， 再 恢复 到 越过 的 最 后 一 个 接 


受 状态 。 


例 3.10 ”把 图 3-12、 图 3-13 和 图 3-14 的 状态 转换 图 放 在 一 起 ， 我 们 便 得 到 了 例 3.6 中 所 有 记 
号 的 转换 图 序列 。 进 行 匹配 时 ， 首 先 尝试 编号 小 的 开始 状态 ， 然 后 尝试 编号 大 的 开始 状态 。 
接 下 来 是 与 空白 符 处 理 问题 有 关 的 问题 。 对 代表 空白 符 的 ws 的 处 理 方式 与 前 面 讨论 的 其 


他 模式 的 处 理 方式 有 所 不 同 ， 因 为 当 在 输入 串 = 
中 发 现 空白 符 时 ， 没有 任何 信息 返回 给 语法 分 start delim other * 
析 器 。 识 别 ws 的 状态 转换 图 如 下 图 所 示 。 在 (28) © 


到 达 接受 状态 时 ， 什 么 也 不 返回 ， 只 是 回 到 第 一 个 状态 转换 图 的 开始 状态 ， 寻 找 其 他 模式 。 
只 要 有 可 能 ， 先 寻找 出 现 频率 较 高 的 记号 比较 有 利 ， 因 为 只 有 前 面 所 有 的 状态 转换 图 都 匹 

配 失败 以 后 ， 才 会 到 达 下 一 个 状态 转换 图 。 空 白 符 肯定 是 经 常 出 现 的 ， 所 以 把 识别 空白 符 的 状 

态 转 换 图 放 在 较 前 面 将 有 利于 提高 效率 。 口 


3.4.2 状态 转换 图 的 实现 

状态 转换 图 序列 可 以 变换 成 程序 ， 用 来 识别 该 序列 所 定义 的 记号 。 我 们 将 采用 对 所 有 状态 
转换 图 都 适用 的 系统 化 方法 来 构造 程序 ， 该 程序 的 大 小 与 图 中 状态 数 和 边 数 成 正比 。 

每 个 状态 对 应 一 个 代码 段 。 如 果 一 个 状态 具有 出 边 ， 该 状态 的 代码 便 读 一 个 字符 并 选择 应 
跟随 的 边 。 函 数 nextchar () 用 来 从 输入 缓冲 区 中 读 人 下 一 个 字符 ， 每 次 调用 都 向 前 移动 向 前 
指针 ， 并 返回 读 人 的 字符 。8 如 果 存 在 标记 为 该 字符 的 边 ， 或 标记 为 包含 该 字符 的 字符 类 的 边 ， 
则 控制 转 给 这 条 边 指 向 的 状态 所 对 应 的 代码 。 如 果 不 存 在 这 样 的 边 ， 而 且 当 前 状态 不 是 接受 状 
态 ， 调 用 fail() 程 序 ， 把 向 前 指针 撤回 到 开始 指针 指向 的 位 置 ， 启 动 下 一 个 状态 转换 图 对 应 
的 代码 继续 匹配 。 如 果 不 存在 下 一 个 状态 转换 图 ，fail1() 调 用 错误 恢复 程序 ， 进 行 错误 处 理 。 

我 们 用 全 局 指针 变量 1exical_value 返 回 记号 。 当 识别 出 一 个 标识 符 或 一 个 数 时 ， 
lexical_value 被 赋值 为 install_ia() 和 :install_nunt() 过 程 返回 的 指针 。 记 号 类 由 


O ”一 种 更 有 效 的 实现 方法 是 用 嵌 和 人 式 的 宏 来 代替 函数 nexEchar ()。 


词法 分 析 


词法 分 析 器 的 主 过 程 nexttoken () 返 回 。 
我 们 使 用 case 语 句 来 查找 下 一 个 状态 
转换 图 的 开始 状态 。 在 图 3-15 的 C 语 言 实 
现 中 ， 两 个 变量 state 和 start 分 别 用 来 
保存 当前 状态 转换 图 的 当前 状态 和 起 始 状 
态 。 这 段 代码 中 的 状态 号 就 是 图 3-12 至 图 
3-14 中 的 状态 号 。 
如 图 3-16 所 示 ， 在 状态 转换 图 中 一 条 
边 一 条 边 地 往 下 匹配 的 过 程 是 通过 不 断 地 
选择 一 个 状态 对 应 的 代码 段 来 执行 ， 以 确 
定 出 下 一 个 状态 ， 并 将 控制 转 到 该 状态 对 
应 的 代码 段 去 执行 。 图 3-16 给 出 了 状态 0 对 
应 的 代码 (在 例 3.10 进 行 修改 以 处 理 空白 
F) 以 及 图 3-13 和 图 3-14 中 的 状态 转换 图 对 
token nexttoken() 
{ while(1) { 


switch (state) 
case 0: 


state = 
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int state = 0, start = 0; 
int lexical_value; 


/* 返回 记号 的 第 二 个 分 量 */ 


fail() 


forward token_beginning; 

switch (start) { 
case 0: start = 9; break; 
case 9: start = 12; break; 
case 12: start = 20; break; 
case 20: start = 25; break; 
case 25: recover(); break; 
default: (+ 编译 错误 «/ 

} 

return start; 





图 3-15 找 出 下 一 个 开始 状态 的 C 代 码 


{ 


C = nextchar(); 
/* <c 是 超前 扫描 字符 


if (c==blank |i 


#/ 


c==tab ii c==newline) { 
0; 


lexeme_beginning++; 


A/* 词素 开始 指针 的 前 移 


} 
else 
else 


if (c 
if (c 
else if (c 
else state 
break; 


a/ 
z= ’<’) state = 1; 
az ’=’) state = 5; 
>’) state = 6; 
= fail(); 


.../* 这 里 放 cases 1~8 #/ 


case 9: 


c = nextchar(); 


if (isletter(c)) state = 10; 


else state 
break; 
case 10: 


fail(); 


c a nextchar(); 


if (isletter(c)) state = 10; 
else if (isdigit(c)) state = 10; 


else state 
break; 
case 11: 


= 11; 


retract(1}); install_id(); 


return ( gettoken() ); 


oe /* 这 里 放 cases 12~24 #/ 


case 25: 
if 
else state 
break; 

case 26: 
if 





c = nextchar(); 
(isdigit(c)) state = 26; 


= fail(); 


c = nextchar(); 
(isdigit(c)) state = 26; 





图 3-16 词法 分 析 器 的 C 代 码 
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else state = 27; 
break; 

case 27: retract(1); install_num(); 
return ( NUM ); 





图 3-16 ( 续 ) 


应 的 代码 。 请 注意 ，C 代 码 while (1) sm 会 不 断 地 重复 执行 stmt， 直 到 遇见 一 个 return 为 止 。 

由 于 C 语 言 不 允许 同时 返回 记号 和 属性 值 ， 所 以 install_id() Ml install_num() 用 
全 局 变量 来 存放 对 应 于 ia 和 num 表 项 的 属性 值 。 

如 果实 现状 态 转换 图 的 语言 没有 case 语句 ， 可 以 为 每 个 状态 创建 一 个 数组 ， 用 字符 作 下 
标 。 如 果 state] 是 这 样 的 数组 ， 则 当 超 前 扫描 的 字符 是 c 时 ，statel[c] 是 指向 需要 执行 的 程序 
自 的 指针 。 这 些 代码 段 一 般 以 转 到 下 一 个 状态 的 代码 段 的 goto 语 名 结束。 状态 s 的 数组 可 以 看 
RE s 的 间接 状态 转换 表 。 


3.5 词法 分 析 器 描述 语言 


目前 有 很 多 基于 正规 表达 式 从 特定 表示 法 构建 词法 分 析 器 的 工具 。 前 面 我 们 已 经 看 到 怎样 
使 用 正规 表达 式 来 描述 记号 模式 。 在 考虑 把 正规 表达 式 转换 成 模式 匹配 程序 的 算法 之 前 ， 我 们 
先 给 出 一 个 使 用 这 类 算法 的 工具 示例 。 

本 节 将 介绍 一 个 叫做 Lex 的 工具 。Lex 已 经 广泛 地 应 用 于 各 种 语言 的 词法 分 析 器 的 描述 。 
我 们 称 这 种 工具 为 Lex 编译 器 ， 而 且 Lex 编译 器 的 输入 称 为 Lex 语言 。 讨 论 现 有 的 工具 的 目 
的 在 于 说 明 如 何 把 正规 表达 式 描述 的 模式 与 行为 〈《 如 在 符号 表 中 创建 新 表 项 ， 这 是 词法 分 析 器 
需要 做 的 动作 ) 结合 起 来 。 我 们 将 使 用 类 Lex 语言 来 说 明 词 法 分 析 器 ， 虽 然 这 种 词法 分 析 器 说 
明 不 能 用 现 有 的 Lex 编译 器 编译 ; 我 们 可 以 


使 用 上 节 介 绍 的 状态 转换 图 技术 将 这 个 说 明 Lex 源 程序 lex.yy.c 
转 成 可 以 运行 的 程序 。 tex. 

Lex 的 使 用 方法 通常 如 图 3-17 所 示 。 首 
先 ,使 用 Lex 语言 写 一 个 定义 词法 分 析 器 1。 yc «out 
的 源 程序 1ex.1。 然 后 ， 利 用 Lex 编译 器 
将 lex.1 转换 成 C 语言 程序 lex.yy.co 
它 包括 从 Lex .1 的 正规 表达 式 构造 的 状态 ag wren 
转换 图 的 表格 形式 以 及 使 用 该 表格 识别 词 


素 的 标准 子 程序 。 与 lex.1 中 正规 表达 式 = 
相关 联 的 动作 是 C 代码 段 ， 这 些 动作 可 以 ABT 用 Lex SBS. PERSP aE 
直接 加 到 lex.yy.c Fo BB, lex.yy.c 通过 C 编译 器 生成 目标 程序 a.out，a.out 就 
是 把 输入 流转 换 成 记号 序列 的 词法 分 析 器 。 
3.5.1 Lex 说 明 

一 个 Lex 程 序 由 如 下 三 部 分 组 成 : 


声明 部 分 
%% 
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转换 规则 
%% 
辅助 过 程 


声明 部 分 包括 变量 声明 、 符 号 常量 声明 和 正规 定义 。( 符号 常量 是 被 声明 来 表示 常数 的 标识 符 。) 
正规 定义 类 似 3.3 节 的 正规 定义 ， 作 为 转换 规则 中 正规 表达 式 的 部 分 。 
Lex 程序 的 转换 规则 是 如 下 形式 的 语句 : 


pi { action, } 
P2 { action, } 
pn { action, } 


其 中 每 个 pi 是 一 个 正规 表达 式 ， 每 个 action, 表示 当 模 式 p; 匹配 上 一 个 词素 后 词法 分 析 器 所 要 
执行 的 程序 段 。 在 Lex F, Xt action 是 用 C 语言 编写 的 ， 当 然 也 可 以 用 其 他 语言 来 实现 。 

Lex 程序 的 第 三 部 分 包含 action 所 需要 的 辅助 过 程 。 这 些 过 程 可 以 单独 编译 ， 并 与 词法 分 
析 器 一 起 装载 。 

- 由 Lex 创 建 的 词法 分 析 器 与 语法 分 析 器 协同 工作 的 方式 如 下 ; 词法 分 析 器 被 语法 分 析 器 调 
用 后 ， 从 尚未 扫描 的 输入 字符 串 中 读 字符 ， 每 次 读 人 一 个 字符 ， 直 到 发 现 能 与 某 个 正规 表达 式 
疡 匹配 的 最 长 前 级 。 然 后 ， 词 法 分 析 器 执行 actiom 。 通 常 action 会 将 控制 返回 给 语法 分 析 器 。 
然而 ， 如 果 不 将 控制 交 给 语法 分 析 器 ， 词 法 分 析 器 可 以 继续 发 现 更 多 的 词素 ， 直 到 某 个 操作 将 
控制 返回 给 语法 分 析 器 。 词 法 分 析 器 的 这 种 不 断 查找 词素 ， 直 到 以 显 式 的 retum 调用 结束 工作 
的 方式 ， 使 其 可 以 方便 地 处 理 空白 符 和 注释 。 

词法 分 析 器 只 返回 记号 给 语法 分 析 器 ， 带 有 与 词素 相关 信息 的 属性 值 是 通过 全 局 变量 
yylval 传 递 的 。 


例 3.11 图 3-18 是 识别 图 3-10 中 记号 的 Lex 程序 ， 这 个 程序 返回 识别 的 记号 。 我 们 通过 观 
察 这 段 代码 可 以 发 现 很 多 Lex 的 特点 。 

在 声明 部 分 ， 我 们 可 以 看 到 转换 规则 所 使 用 的 符号 常量 的 声明 ”。 这 些 声明 被 一 对 特殊 括 
号 %{ 和 %} 括 在 一 起 。 所 有 出 现在 括号 内 的 内 容 都 直接 复制 到 词法 分 析 器 lex.yy.c Po € 
们 不 作为 正规 定义 或 转换 规则 的 一 部 分 。 对 第 三 部 分 的 辅助 过 程 也 进行 同样 的 处 理 。 在 图 3-18 
中 有 两 个 过 程 install_id 和 install_num, 它们 被 照 原样 复制 到 lex.yy.c 中 ， 这 两 个 
过 程 将 由 转换 规则 调用 。 

在 声明 部 分 还 包含 一 些 正 规定 义 。 每 个 定义 由 一 个 名 字 和 这 个 名 字 所 代表 的 正规 表达 式 组 
成 。 例如， 第 一 个 名 字 定 义 为 delim， 它 代表 字符 类 [\t\n]， 即 空格 、 制 表 符 ( 由 \t 表 示 )、 
换行 符 ( 由 \n 表 示 ) 三 者 之 一 。 第 二 个 是 关于 空白 符 定义 ， 由 名 字 ws 表 示 。 空 白 符 是 一 个 或 
多 个 分 隔 符 组 成 的 序列 。 注 意 ,在 Lex Pia] delim 必须 由 大 括号 括 起 来 以 便 与 包含 delim 
这 五 个 字符 的 模式 区 别 开 。 

在 letter 的 正规 定义 中 使 用 了 字符 类 。[A-za-z] 表 示 大 写字 母 A 到 z 或 小 写字 母 a 到 z 
中 的 任何 一 个 。 在 id 的 定义 〈 第 五 个 定义 ) 中 使 用 了 圆 括号 ， 圆 括号 是 Lex 语言 的 元 符号 ， 
与 通常 情况 下 的 含义 相同 ， 表 示 包 括 。 类 似 地 ， 坚 线 也 是 Lex 语言 的 元 符号 ， 表 示 并 。 


O ÑK lex.yy.c 作为 由 Yacc 生成 的 语法 分 析 器 的 子 程序 ，Yacc 是 将 在 第 4 章 中 讨论 的 语法 分 析 生 成 器 ， 
这 里 ， 符 号 常量 可 以 由 语法 分 析 器 定义 ， 在 lex.yy.c 中 一 同 编译 。 
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在 number 的 正规 定义 中 可 以 看 到 更 多 的 细节 。? 是 元 符号 ， 表 示 出 现 过 0 次 或 一 次 。 反 
斜 杠 被 当成 转 义 字符 ， 使 得 Lex 的 元 符号 能 表示 它 的 本 来 意义 。 在 number 的 定义 中 ， 小 数 
点 表示 成 “\.”， 因 为 在 Lex 和 很 多 UNIX 系统 的 处 理 正规 表达 式 的 程序 中 ， 单 独 的 一 个 点 表 
示 除 了 换行 符 以 外 的 所 有 字符 的 字符 类 。 在 字符 类 [+\-] 中 ， 减 号 前 面 的 反 斜 杠 是 为 了 避免 
与 减 号 表示 范围 的 用 法 混淆 (如 [a-z] )。9 











%{ 





/* 符号 常量 定义 
LT, LE, EQ, NE, GT, GE, 


IF, THEN, ELSE, ID, NUMBER, RELOP «/ 
%} 






7# 正规 定义 */ 











delim [ \t\n] 

ws {delim}+ 

letter [A-Za-z] 

digit [0-9] 

id {letter} ({letter} i {digit} )« 


{digit} +(\.{digit}+)?(E{+\-]?{digit}+)? 





{/* 没有 动作 和 返回 值 */ } 


if {return(IF);} 

then {return (THEN) ; } 

else {return( ELSE) ; } 

{id} {yylval = install_id(); return(ID);} 


{number} {yylval = install.num(); return(NUMBER); } 











< {yylval = LT; return(RELOP);} 
"<=" {yylval = LE; return(RELOP) ;} 
we" {yylval = EQ; return(RELOP) ;} 
"<>" {yylval = NE; return(RELOP);} 
">" {yylval = GT; return(RELOP);} 
">=" {yylval = GE; return(RELOP) ;} 
XK 


install_id() { , 
/* 往 符号 表 中 填 人 词素 的 过 程 。yytext 指向 词素 的 第 一 个 字符 ，yy1leng 表 示 词 素 的 长 度 。 将 词 
素 填 入 符号 表 ， 返回 指向 该 词素 所 在 表 项 的 指针 */ 

} 


install_num() { 


/* 与 填词 素 的 过 程 类 似 ， 只 不 过 词素 是 一 个 数 */ 





} 


图 3-18 关于 图 3-10 中 记号 的 Lex 程序 


还 有 一 种 方法 能 使 字符 保持 本 来 的 意义 ， 即 使 它们 是 Lex 的 元 符号 。 这 种 方法 就 是 用 引号 
把 字符 括 起 来 。 在 转换 规则 部 分 中 ， 我 们 使 用 了 这 种 方法 来 表示 六 个 关系 操作 符 。” 
现在 ， 让 我 们 考虑 跟 在 第 一 个 %% 后 面 的 转换 规则 。 第 一 条 规则 表示 如 果 发 现 ws (任何 由 


O ”事实 上 ，Lex 不 用 反 斜 杠 就 可 以 正确 地 处 理 字符 集 [+-]， 因 为 出 现在 最 后 的 减 号 不 可 能 表示 范围 。 
O ”这样 做 是 因为 < 和 > 是 Lex 的 元 符号 ; 用 来 将 状态 名 括 起 来 ， 使 得 Lex 在 遇 到 特定 记号 如 注释 或 引用 的 字符 
串 时 改变 状态 , 保证 它们 与 正常 的 文本 的 处 理 方式 不 同 。 没有 必要 将 等 号 也 放 入 引号 中 , 但 也 不 反对 这 人 么 做 。 
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空格 、 制 表 符 和 换行 符 组 成 的 最 长 序列 ) 则 不 做 任何 动作 ， 控 制 也 不 返回 给 语法 分 析 器 ， 词 法 
分 析 器 继续 识别 记号 ， 直 到 与 某 一 个 记号 关联 的 动作 调用 了 return 语 句 。 

第 二 条 规则 表示 如 果 识 别 出 i£， 则 返回 记号 IF ， 它 是 表示 某 个 整数 的 符号 常量 ， 语 法 分 
析 器 将 这 个 整数 理解 为 记号 证 。 类 似 地 ， 接 下 来 的 两 条 规则 用 来 识别 关键 字 then 和 else。 

在 id 的 规则 中 ， 关 联 的 动作 有 两 条 语句 。 第 一 条 语句 将 过 程 install_id 的 返回 值 赋 给 
变量 yylval, 该 过 程 的 定义 在 第 三 部 分 给 出 。 变 量 yylval 是 在 Lex 的 输出 lex .yy.c 中 
定义 的 。 语 法 分 析 器 也 可 以 访问 这 个 变量 。 使 用 yylval 的 目的 是 保存 词素 的 属性 值 ， 因 为 
return (ID) 语句 ( 即 第 二 个 语句 ) 只 能 返回 记号 类 。 

我 们 在 这 里 没有 给 出 install_igd 的 详细 代码 ， 但 我 们 可 以 设想 它 的 工作 方式 是 在 符号 
表 中 查找 与 模式 id 匹配 的 词素 。Lex 使 用 两 个 变量 yytext 和 yyleng 来 保证 第 三 部 分 的 程 
序 能 够 访问 匹配 的 词素 。 变 量 yytext 就 是 前 面 介绍 的 词素 lexeme_beginning (开始 指针 )， 
即 指向 词素 第 一 个 字符 位 置 的 指针 。 变 量 yyleng 存放 词素 的 长 度 。 如 果 install_ia 在 符 
号 表 中 没有 找到 这 个 词素 ， 则 为 它 创建 一 个 新 的 表 项 ， 输 入 流 中 从 yytext 开始 的 yyleng 
个 字符 被 复制 到 一 个 字符 数组 中 ， 并 以 一 个 字符 串 结尾 符 (2.7 节 ) 做 结束 标记 ， 在 符号 表 的 
新 表 项 中 添 人 一 个 指向 这 个 字符 串 起 始 位 置 的 指针 。 

接 下 来 的 一 条 规则 以 类 似 的 方式 处 理 数 。 在 最 后 六 条 规则 中 ，yy1lval 用 来 返回 识别 出 的 
关系 操作 符 对 应 的 代码 ， 而 实际 上 对 这 六 个 关系 操作 符 返回 的 都 是 记号 relop 的 代码 。 

假设 由 图 3-18 中 的 程序 生成 的 词法 分 析 器 被 给 定 一 个 由 两 个 制 表 符 、 一 个 i£ 和 一 个 空格 
组 成 的 输入 串 。 两 个 制 表 符 是 能 与 模式 ws 匹配 的 初始 最 长 前 级 。 与 ws 相关 联 的 动作 不 做 任何 
事 ， 因 此 词法 分 析 器 移动 词素 的 开始 指针 .(yytext) 使 其 指向 i ， 并 开始 查找 下 一 个 记号 。 

下 一 个 匹配 的 词素 是 if 。 请 注意 ， 模 式 if 和 {id} 均 匹配 这 个 词素 ， 并 且 没 有 能 匹配 更 
长 串 的 模式 。 由 于 在 图 3-18 中 匹配 关键 字 if 的 模式 先 于 匹配 标识 符 的 模式 执行 ， 所 以 if 被 匹 
配 为 关键 字 。 通 常 ， 采 用 将 匹配 关键 字 的 模式 置 于 匹配 标识 符 的 模式 之 前 的 策略 ， 可 以 简单 有 
效 地 保留 关键 字 。 

再 举 一 个 例子 ， 假 设 读 人 的 头 两 个 字符 是 <= 。 模 式 < 匹 配 上 第 一 个 字符 ， 但 它 不 是 能 匹配 
输入 字符 串 的 最 长 前 缀 的 模式 。Lex 采用 “选择 最 长 匹配 前 缀 的 策略 ”方便 地 解决 了 < 和 <= 
之 间 的 冲突 。 这 里 ， 当 然 <= 被 选择 作为 下 一 个 记号 。 口 


3.5.2 超前 扫描 操作 

如 3.1 节 所 述 ， 对 于 某 些 程序 设计 语言 结构 ， 词 法 分 析 器 需要 超前 扫描 词素 后 面 的 若干 字 
符 来 确定 一 个 记号 。 回 忆 我 们 前 面 提 到 的 Fortran 语句 例子 ， 

DO 5I = 1.25 

DO 5 I = 1,25 
在 Fortran 中 ， 除 了 在 注释 和 Hollerith 串 中 之 外 ， 空 格 不 代表 任何 意义 。 我 们 可 以 认为 在 词法 
分 析 器 开始 工作 时 ， 所 有 的 空格 都 已 经 去 掉 。 这 样 ， 上 面 的 两 个 语句 就 变 为 如 下 形式 : 

DOSI=1.25 | 

DOSI=1,25 
在 第 一 个 语句 中 ， 直 到 词法 分 析 器 发 现 了 小 数 点 才 可 以 断定 DO 是 标识 符 DOST 的 一 部 分 。 在 
第 二 个 语句 中 ，D0 是 关键 字 。 

在 Lex 中 我 们 可 以 把 模式 写成 n/n HBX, RP, nA 疡 都 是 正规 表达 式 。 它 的 意思 
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是 当 一 个 字符 串 与 六 匹配 时 ， 还 需 其 后 的 字符 串 与 rx, 匹配， 这样 才 算 该 字符 串 与 六 匹配 
成 功 。 在 超前 扫描 操作 符 / 后 面 的 正规 表达 式 疡 表示 需要 进一步 匹配 的 内 容 ， 这 里 它 只 是 
匹配 模式 的 一 个 限制 ， 而 不 是 匹配 的 一 部 分 。 例 如 ， 将 上 述 语句 中 的 Do 识别 为 关键 字 的 Lex 
说 明 如 下 : 


pO/({letter} | {digit})* = ({letter} | {digit})+, 


根据 这 个 说 明 ， 词 法 分 析 器 在 输入 缓冲 区 超前 地 扫描 一 串 字 母 或 数字 ， 接 着 扫描 等 号 以 及 后 面 
的 一 串 字 母 或 数字 ， 最 后 扫描 到 去 号 才能 够 判断 出 这 不 是 一 个 赋值 语句 。 但 只 有 超前 扫描 符 前 
面 的 D 和 o 才 是 与 模式 匹配 的 词素 的 部 分 。 经 过 成 功 的 匹配 ，yytext 指针 指向 字符 D IFA 
yyleng =2。 注 意 ,这 个 简单 的 超前 扫描 模式 使 得 当 po 后 面 跟着 一 些 无 意义 的 符号 (如 24 = 
6Q ) 时 也 会 识别 出 Do， 但 它 决 不 会 把 做 为 标识 符 一 部 分 的 Do 识别 为 一 个 词素 。 


例 3.12 ”超前 扫描 操作 符 还 可 以 用 来 解决 Fortran 词法 分 析 中 的 另 一 个 难题 : 区别 关键 字 
和 标识 符 。 例 如 ， 


IF(I, J) = 3 


是 一 个 正确 的 赋值 语句 ， 而 不 是 一 个 逻辑 判断 证 语句 。 使 用 Lex 描述 关键 字 IF 的 一 种 方法 是 
使 用 超前 扫描 操作 符 定义 IF 右边 的 正文 。 有 逻辑 if 语句 的 一 种 简单 形式 是 

IF ( 条 件 ) 语句 
Fortran 77 中 介绍 了 语句 的 另 一 种 表示 形式 : 


IF ( 条 件 ) THEN 
then 块 
ELSE 
else. 块 
END IF 
每 个 无 标号 Fortran 语 句 都 以 一 个 字母 开始 ， 并 且 每 个 用 来 于 下 标 或 操作 数组 的 右 括号 都 跟着 操 
作 符 ， 如 = 、+、 豆 号、 另外 一 个 右 括号 或 者 语 名 结尾。 这样 的 右 括号 后 面 不 能 跟随 字母 。 基 
于 这 种 情况 ， 为 了 确定 IF 是 关键 字 而 不 是 数组 名 ， 我 们 还 需要 向 前 扫描 ， 寻 找 在 换行 符 之 前 
出 现 的 由 一 个 字母 跟随 的 右 括号 ( 我们 假定 连续 的 卡片 “删除 ”了 换行 符 )。 识 别 关 键 字 IF 的 
模式 可 以 写 为 


IF / \( .* \) {letter} 


其 中 的 圆 点 表示 除了 换行 符 以 外 的 任何 字符 ， 而 括号 前 面 的 反 斜 杠 表示 括号 取 其 本 来 的 意思 ， 
而 不 是 正规 表达 式 中 的 元 符 导 〈 见 练习 3.10 )。 口 


处 理 Fortran 的 主语 句 问题 的 另外 一 种 方法 是 : 当 看 到 字符 串 IF ( 后 ， 先 确定 IF 是 否 被 
声明 为 数组 。 如 果 是 ， 我 们 才 去 匹配 上 面 给 出 的 整个 模式 。 这 样 的 检查 使 得 由 Lex 说 明 自 动 实 
现 一 个 词法 分 析 器 变 得 很 难 ， 而 且 它 们 在 运行 时 可 能 耗费 更 多 的 时 间 ， 因 为 要 由 模拟 状态 转化 
图 的 程序 频繁 地 判断 是 否 要 进行 这 样 的 检查 。 应 该 说 明 的 是 ， 对 Fortran 程序 进行 词法 分 析 是 
很 不 规则 的 任务 。 使 用 特殊 的 程序 设计 语言 直接 编写 Fortran 词法 分 析 器 比 使 用 自动 生成 器 来 
生成 词法 分 析 器 更 容易 。 


3.6 有 穷 自动 机 
语言 的 识别 器 是 一 个 程序 ， 它 以 字符 串 x 作为 输入 ， 当 x 是 语言 的 句子 时 ， 回 答 “ 是 "， 否 
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则 回答 “不 是 ”。 我 们 可 以 通过 构造 有 穷 自动 机 把 正规 表达 式 编译 成 识别 器 。 有 穷 自动 机 是 更 
一 般 化 的 状态 转换 图 ， 它 可 以 是 确定 的 或 不 确定 的 ， 其 中 “不 确定 ”的 含义 是 : 对 于 某 个 输入 
符号 ， 在 同一 个 状态 上 存在 不 止 一 种 转换 。 

确定 和 不 确定 的 有 穷 自 动机 都 能 而 且 仅 能 识别 正规 集 ， 即 它们 能 够 识别 正规 表达 式 所 表示 
的 语言 。 但 是 ， 它 们 之 间 有 着 时 空 的 权衡 。 确 定 的 有 穷 自 动机 导出 的 识别 器 比 不 确定 的 有 穷 自 
动机 导出 的 识别 器 快 得 多 , 但 确定 的 有 穷 自动 机 可 能 比 与 之 等 价 的 不 确定 的 有 穷 自 动机 大 得 多 。 
下 节 将 给 出 把 正规 表达 式 变 成 两 种 有 穷 自 动机 的 方法 。 由 于 变 成 不 确定 的 自动 机 更 直接 一 些 ， 
我 们 首先 讨论 这 一 类 自动 机 。 

本 节 和 下 节 的 基本 例子 都 是 由 正规 表达 式 (alb)*abb 表示 的 语言 ， 即 包括 所 有 以 abb 结尾 
的 a 和 4b 的 符号 串 。 类 似 的 语言 在 实际 中 也 会 出 现 。 例 如 ， 表 示 所 有 以 .o 结 尾 的 文件 名 的 正规 
表达 式 是 ( .1o1c)*.o， 其 中 c 代 表 除 .和 o 以 外 的 任何 字符 。 又 如 ，c 语 言 的 注释 是 由 开 括号 * 
之 后 以 * /结尾 的 任意 字符 序列 组 成 的 ， 其 任何 真 前 级 都 不 以 * / 结尾 。 
3.6.1 不 确定 的 有 穷 自动 机 

不 确定 的 有 穷 自 动机 ( 简写 为 NFA ) 是 一 个 由 以 下 几 部 分 组 成 的 数学 模型 : 

1. 一 个 状态 的 有 穷 集合 5。 

2. 一 个 输入 符号 集合 王 ， 即 输入 符号 字母 表 。 

3. 一 个 转换 函数 move， 它 把 由 状态 和 符号 组 成 的 二 元 组 映射 到 状态 集合 。 

4. 状态 so 是 惟一 的 开始 或 初始 状态 。 

5. 状态 集合 FER (MAILE) 状态 集合 。 

NEFA 可 以 用 带 标 记 的 有 向 图 表示 ， 称 为 转换 图 (transition graph )， 其 节点 是 状态 ， 有 标记 
的 边 表示 转换 函数 。 这 种 转换 图 和 前 面 所 讲 的 状态 转换 图 (transition diagram ) 很 类 似 ， 但 略 
有 区 别 : 同一 个 字符 可 以 标记 始 于 同一 个 状态 的 两 个 或 多 个 转换 ， 边 可 以 由 输入 字符 符号 ， 也 


可 以 由 特殊 符号 e 标记 。 a 
图 3-19 给 出 了 识别 语言 (alp)*apb 的 NFA 的 () 
转换 图 。 这 个 NFA 的 状态 集合 是 {0, 1, 2, 3}, LNO) 
输入 符号 表 是 {a, 5}， 状 态 0 是 开始 状态 ， 状 态 È 
3 是 接受 状态 ， 用 双 圈 表示 。 b | 
描述 NFA 时 ， 我 们 常用 这 种 转换 图 表示 。 图 3-19 一 个 不 确定 的 有 穷 自动 机 


正如 我 们 将 要 看 到 的 那样 ， 我 们 可 以 在 计算 机 
上 使 用 不 同 的 方法 实现 NFA 的 转换 函数 。 最 简 
单 的 办 法 是 使 用 转换 表 。 转 换 表 的 每 个 状态 占 
一 行 ， 每 个 输入 符号 占 一 列 。 如 果 必 要 ， 符 
号 e 也 占 一 列 。 表 中 第 i 行 a 列 对 应 的 表 项 是 
当 输 入 为 a 时 从 状态 i 所 能 到 达 的 状态 的 集合 图 3-20 与 图 3-19 的 NFA 对 应 的 转换 表 
(实际 上 它 很 可 能 是 指向 状态 集合 的 指针 )。 图 3-20 是 与 图 3-19 的 NFA 对 应 的 转换 表 。 

转换 表 表 示 的 优点 是 能 够 快速 地 确定 给 定 状 态 在 给 定 字符 上 的 转换 。 它 的 缺点 是 : SRA 
字母 表 较 大 而 且 大 多 数 转换 是 空 集 时 ， 需 要 耗费 大 量 空间 。 转 换 函 数 的 邻接 表 表 示 法 能 提供 较 
紧凑 的 实现 ， 但 在 确定 一 个 给 定 的 转换 时 速度 较 慢 。 显 然 ， 我 们 很 容易 就 能 把 有 穷 自动 机 的 一 
种 实现 转变 成 另 一 种 。 





w 
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当 且 仪 当 对 应 的 转换 图 中 存在 从 开始 状态 到 某 个 接受 状态 的 路 径 ， 使 得 该 路 径 的 边 上 的 标 
记 恰 好 连 成 字符 串 x 时， 一 个 NFA 接受 输入 字符 串 x。 图 3-19 的 NFA 可 以 接受 输入 串 abb， 
aabb，babb，aaabb，…。 例 如 ， 从 状态 0 开始 ， 沿 着 标记 为 a 的 边 再 回 到 状态 0， 然 后 沿 着 标 
记分 别 为 a、b、b 的 边 进入 状态 1 、2、3。 因 为 3 是 接受 状态 ， 所 以 aabb 被 接受 。 

一 条 路 径 可 以 用 状态 转换 序列 表示 ， 其 中 的 状态 转换 叫做 移动 。 下 图 是 接收 输入 字符 串 
aabb 过 程 中 的 所 有 移动 : 


0 一 0 一 和 1 一 ”。 2 — 3 
一 般 说 来 ， 可 能 有 多 个 移动 序列 可 以 到 达 接 受 状态 。 注 意 ， 对 于 输入 串 aabb， 也 许 还 可 以 
沿 着 一 些 其 他 的 移动 序列 走 下 去 ,但 它们 都 不 会 终止 在 接受 状态 。 例 如 ， 对 于 输入 串 aabb， 下 
述 移动 序列 会 停留 在 非 接受 状态 0 上 : 


a a b b 


0 — 0 一 > 0 —— 0 — 0 


由 NFA 定 义 的 语言 是 它 接受 的 输入 字符 串 的 集合 。 不 难看 出 图 3-19 的 NFA 接 受 的 语言 
(alb}*abb。 


例 3.13 图 3-21 是 接受 aa*1 bb* 的 NFA。 字 符 串 aaa 经 过 状态 0、1、2、2、2 的 路 径 被 接 
受 。 这 些 边 上 的 标记 分 别 为 e a, afla, EER aaas E 在 连接 中 “消失 ”。 口 
3.6.2 确定 的 有 穷 自 动机 

确定 的 有 穷 自 动机 ( 简称 DFA) 是 不 确定 
的 有 穷 自 动机 的 特例 ， 其 中 : 

1. 没有 一 个 状态 具有 转换 ， 即 在 输入 e 
上 的 转换 。 

2. 对 每 个 状态 s 和 输入 符号 a， 最 多 只 有 一 
条 标记 为 a 的 边 离开 so 

确定 的 有 穷 自动 机 在 任何 状态 下 ， 对 任 一 
输入 符号 ， 最 多 只 有 一 个 转换 。 如 果 用 转换 表 图 3-21 接受 aaxlbb* 的 NFA 
表示 DFA 的 转换 函数 ， 那 么 表 中 的 每 个 表 项 最 多 只 有 一 个 状态 。 因 而 ， 很 容易 确定 DFA 是 否 
接受 某 输入 字符 串 ， 因 为 从 开始 状态 起 ， 最 多 只 有 一 条 到 达 接 受 状态 的 路 径 可 由 这 个 符号 串 标 
记 。 下 边 的 算法 说 明 怎样 在 一 个 输入 串 上 模拟 DFA 的 行为 。 


算法 3.1 模拟 DFA。 








输入 : 输入 以 文件 结束 符 eof 结尾 的 串 ss 
x; 一 个 DFA D， 其 开始 状态 为 so RERS Cent cot do 
集合 为 Fo i= move {s, c)s 
输出 ; 如 果 D 接受 x, WAS “yes”, T end: c := nextchar 
则 回答 “no 。 if s is in F then 
方法 : 把 图 3-22 的 算法 应 用 于 输入 字符 串 x。 return “yes” 
函数 move (s, c) 给 出 在 状态 * 上 遇 到 输入 字符 c eise return no 


时 应 该 转换 到 的 下 一 个 状态 。 函 数 nextchar 返 图 3-22 模拟 DFA 
a AB x 的 下 一 个 字符 。 口 
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例 3.14 图 3-23 是 与 图 3-19 的 NFA 接 受 同 
一 语言 (alb)*abb 的 DFA 的 转换 图 。 对 这 个 
DFA 和 输入 串 ababb， 算 法 3.1 沿 着 状态 序列 0、 
1、2、1、2、3 移 动 ， 并 返回 “yes”。 口 


3.6.3 ”从 NFA 到 DFA 的 变换 图 3-23 接受 (alb)y*abb 的 DFA 

图 3-19 的 NFA 在 状态 0 对 输入 a 有 两 个 转换 ， 即 可 能 进入 状态 0 或 状态 1。 类 似 地 ， 图 3-21 的 
NFA 在 状态 0 对 e 也 有 两 个 转换 。 虽 然 未 给 出 例子 ， 但 是 我 们 不 难 想像 当 在 某 一 个 状态 上 既 可 
以 根据 € 也 可 以 根据 一 个 实际 的 输入 符号 进行 转换 时 ， 会 引起 歧义 。 这 种 多 值 转换 函数 使 得 我 
们 很 难 用 计算 机 程序 模拟 NFA。“ 接 受 ” 的 定义 仅仅 是 说 必然 存在 一 条 从 开始 状态 到 某 个 接受 
状态 的 路 径 ， 该 路 径 的 标记 是 输入 字符 串 。 如 果 有 很 多 路 径 其 边 上 的 标记 都 可 以 连 成 同样 的 输 
人 字符 串 ， 则 在 找到 一 条 接受 路 径 或 发 现 没 有 路 径 可 到 达 接 受 状 态 前 ， 我 们 可 能 不 得 不 考虑 所 
有 这 些 路 径 。 

现在 我 们 给 出 从 NEA 构造 识别 同样 语言 的 DFA 的 算法 。 这 个 算法 通常 被 称 为 子 集 构造 算 
法 ， 它 有 利于 使 用 计算 机 程序 模拟 NFA。 一 个 和 它 紧密 相关 的 算法 在 下 一 章 构 造 LR 语法 分 析 
器 时 将 起 到 重要 作用 。 

在 NFA 的 转换 表 中 ， 每 个 表 项 是 一 个 状态 集 ; 而 在 DFA 的 转换 表 中 ， 每 个 表 项 只 有 一 个 
状态 。 从 NFA 变换 到 DFA 的 基本 思想 是 让 DFA 的 每 个 状态 对 应 NFA 的 一 个 状态 集 。 这 个 
DFA 用 它 的 状态 去 记 住 NFA 在 读 输 入 符号 后 到 达 的 所 有 状态 。 也 就 是 说 ， 在 读 了 输入 aare 
anja, DFA 到 达 一 个 代表 NFA 的 状态 子 集 7 的 状态 。 这 个 子 集 了 是 从 NFA 的 开始 状态 沿 着 
那些 标 有 aar a, 的 路 径 能 到 达 的 所 有 状态 的 集合 。DFA 的 状态 数 有 可 能 是 NFA 状态 数 的 指 
数 。 但 实际 上 ， 这 种 最 坏 的 情况 很 少 发 生 。 


算法 3.2 (FHEAE) 从 NFA 构造 DFA。 

输入 : — NFA N。 l 

输出 : 一 个 接受 同样 语言 的 DFA Do 

方法 : 为 D 构造 转换 表 Dtran, DFA 的 每 个 状态 是 NFA 的 状态 集 ，D 将 “并 行 ” 地 模拟 
N 对 输入 串 的 所 有 可 能 的 移动 。 

我 们 用 图 3-24 的 操作 来 记录 NFA 的 状态 集 的 轨迹 (5 代表 NFA 的 状态 ,TT 代表 NFA 的 状 
态 集 )。 

在 读 第 一 个 输入 符号 前 ，N 可 以 处 于 集合 e -closure(so 中 的 任何 状态 上 ， 其 中 so 是 N 的 开 
始 状态 。 假 定 从 so 出 发 经 过 输入 字符 串 上 的 一 系列 移动 ，N 到 达 集 合 T 中 的 状态 。 令 a 是 下 
一 个 输入 符号 。 遇 到 a 时 ,WN 可 以 移动 到 集合 move (T, a) 中 的 任何 状态 。 由 于 允许 e 转换 ， 
BAJ a 以 后 ，N 可 以 处 于 € -closure (move (T, a)) 中 的 任何 状态 。 










€ -closure(s) 





从 NFA 状 态 * 只 经 过 e 转换 可 以 到 达 的 NFA 状 态 集 





€ -closure(T) 






从 了 中 的 状态 只 经 过 e 转换 可 以 到 达 的 NFA 状 态 集 


从 了 中 的 状态 s 经 过 输入 符号 a 上 的 转换 可 以 到 达 
的 NFA 状 态 集 


move(T, a) 





图 3-24 NFA 状 态 上 的 操作 


~ 
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我 们 按 下 面 的 方法 构造 D 的 状态 








初始 时 ，e -closure(so) 是 Dstates 中 惟一 的 状态 且 未 被 标记 ; 
集合 Dstates 和 D 的 转换 表 Dtran。D while Dstates 中 存在 一 个 木 标记 的 状态 T do begin 
的 每 个 状态 对 应 于 NFA 的 一 个 状态 集 ， PET, 
个 7 、 We for 每 个 输入 符号 a do begin 
CE N 读 了 某 个 输入 符号 序列 后 所 能 U:= € -closure(move(T, a)); 
到 达 的 全 部 状态 ， 包 括 所 有 的 e 转换。 if U 没 在 Dstares 中 then 
D 的 开始 状态 是 -closure(so)。 使 用 图 pyar OE Doare P: 
3-25 的 算法 构造 D 的 状态 和 转换 。 如 end 
果品 的 某 个 状态 是 至 少 包含 一 个 N 的 end 
接受 状态 的 NFA 状态 集 ， 那 么 它 是 D 图 3-25 子 集 构造 法 





的 一 个 接受 状态 。 

€ -closure (T ) 是 一 个 典型 的 从 给 
定 节点 集合 出 发 在 转换 图 上 搜索 可 达 
节点 集 的 过 程 。 这 里 ,7 的 状态 是 给 
定 的 节点 集合 ， 转 换 图 中 只 包含 NFA 
中 由 e 标记 的 边 。 计 算 e -closure (T ) 
的 简单 算法 是 用 栈 来 保存 其 边 还 没有 
完成 e 转换 检查 的 状态 。 图 3-26 给 出 
了 这 样 的 过 程 。 口 


例 3.15 图 3-27 给 出 了 接受 语言 (alb)*abb 的 男 一 个 NFA N( 它 是 下 一 节 中 从 正规 表达 
式 开始 一 步 一 步 地 构造 出 来 的 NFA )。 我 们 现在 把 算法 3.2 运 用 到 N。 等 价 的 DFA 的 开始 状 
态 是 e -closure(0), BB A={0, 1, 2, 4，7}， 其 中 的 每 个 状态 都 是 从 状态 0 出 发 经 过 每 条 边 
都 由 e 标记 的 路 径 能 到 达 的 状态 。 注 意 ， 由 于 路 径 可 以 没有 边 ， 所 以 0 也 是 经 这 样 的 路 径 从 0 
能 到 达 的 状态 。 











将 7 中 所 有 的 状态 压 人 栈 stack 中 ; 
将 e -closure DIRK T; 
while 栈 stack 不 空 do begin 
将 栈 顶 元 素 :弹出 栈 ; 
for 每 个 这 样 的 状态 u: 从 上 到， 有 一 条 标记 为 的 边 do 
ifu 不 在 € -closure(T)'P do begin 
将 4 添加 到 € -closure(T); 
将 u 压 人 栈 stack 中 





end 


图 3-26 € -closure 的 计算 





图 3-27 (alb)* abb 的 NFAN 


这 里 的 输入 符号 表 是 {a, b}。 图 3-25 中 给 出 的 算法 告诉 我 们 要 先 标记 4， 然 后 计算 e -closure 
(move (A, a ))。 让 我 们 首先 计算 move (4 ，a)， 即 对 输入 a 从 4 状态 可 以 转换 到 的 N 的 状态 集 。 
在 状态 0，!，2，4 和 7 中 只 有 2 和 7 有 a 上 的 转换 ， 分 别 到 达 状 态 3 和 8， 所 以 

€-closure(move({0, 1, 2, 4,7}, a)) = €-closure({3, 8}) = {1, 2, 3, 4, 6, 7, 8} 

让 我 们 称 这 个 集合 为 Bo TÆ, Dtran[A, al=B. 
在 4 中 只 有 状态 4 对 输入 b 有 一 个 转换 〈 转换 到 状态 5 )， 所 以 DFA 对 输入 有 一 个 从 4 
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到 C 的 转换 ， 其 中 C = € -closure({5}) = (1, 2, 4,5, 6,7}。 因 此 Dtran[A, b]=C. 
对 新 的 没 标 记过 的 集合 B A C 继续 这 个 过 程 ， 最 终 会 使 得 所 有 的 集合 (BD DFA 的 状态 ) 都 
已 标记 过 。 因 为 包含 11 个 状态 的 集合 其 不 同 子 集 “ 只 有 ”2 个， 而且 一 个 集合 一 旦 被 标记 就 
永远 是 标记 的 ， 所 以 这 个 过 程 肯定 能 终止 。 最 终 ， 实 际 构造 出 的 5 个 不 同 的 状态 集合 是 : 
4, 5,6, 7, 9} 
, 4, 5, 6, 7, 10} 


状态 A 是 开始 状态 ， 状 态 E 是 惟一 的 接受 状态 ， 完 整 的 转换 表 Drran 如 图 3-28 所 示 。 


所 得 DFA 的 转换 图 如 图 3-29 所 示 。 注 意 ， 图 3-23 的 DFA 也 接受 (alb)*abb， 并 且 少 一 个 状 
态 。DFA 的 状态 数 的 最 小 化 问题 将 在 3.9 节 中 讨论 。 口 


, 





图 3-28 DEFA 的 转换 表 Prran 图 3-29 对 图 3-27 应 用 子 集 构造 法 得 到 的 结果 
3.7 从 正规 表达 式 到 NFA 


有 很 多 从 正规 表达 式 建立 其 识别 器 的 策略 ， 各 有 优 劣 。 其 中 有 一 个 策略 常用 于 文本 编辑 程 
序 ， 该 策略 先 使 用 本 节 将 要 介绍 的 算法 3.3 从 正规 表达 式 构造 NFA， 然 后 利用 算法 3.4 模 拟 NFA 
在 输入 串 上 的 行为 。 若 想 提 高 运行 速度， 我 们 可 以 利用 上 一 节 介 绍 的 子 集 构造 法 把 NFA 变 成 
DFA。 在 3.9 节 ， 我 们 可 以 看 到 另 一 种 直接 由 正规 表达 式 构 造 DFA 而 无 需 建立 过 渡 的 NFA 的 方 
法 。 本 节 还 将 讨论 基于 NFA 和 DFA 的 识别 器 的 实现 在 时 间 与 空间 复杂 性 的 权衡 问题 。 
3.7.1 从 正规 表达 式 构造 NFA 

现在 我 们 给 出 从 正规 表达 式 构造 NFA 的 算法 。 这 个 算法 有 很 多 变形 ， 本 节 给 出 一 个 易于 
实现 的 简单 版 本 。 这 个 算法 是 语法 制导 算法 ， 该 算法 使 用 正规 表达 式 的 语法 结构 来 制导 构造 过 
程 。 算 法 的 分 支 遵 循 正规 表达 式 定 义 的 分 支 。 我 们 首先 构造 自动 机 使 其 能 够 识别 e 和 字母 表 中 
任何 符号 ， 然 后 由 此 构造 自动 机 来 识别 包含 一 个 交换 、 一 个 连接 或 一 个 克 林 闭 包 运 算 符 的 正规 
表达 式 。 例 如 ， 对 于 正规 表达 式 ris, PA rA sy NFA 构造 出 它 的 NFA。 

在 构造 过 程 中 ， 每 步 最 多 引入 两 个 新 的 状态 ， 于 是 ， 为 一 个 正规 表达 式 构 造 的 最 终 NFA 
的 状态 数 最 多 两 倍 于 该 正规 表达 式 中 符号 和 操作 符 数 。 


算法 3.3 (Thompson 构造 法 ) 从 正规 表达 式 构造 NFA。 

WA: 字母 表 王 上 的 一 个 正规 表达 式 ro 

输出 ; 接受 Lr) 的 NFA N。 

方法 : 首先 ， 分析 7 并 将 其 分 解 成 最 基本 的 子 表达 式 ， 然 后 使 用 下 面 的 规则 1 和 规则 2 为 r 
中 的 每 个 基本 符号 (或 字母 表 中 的 符号 ) 构造 NFA。 基 本 符号 对 应 正规 表达 式 定义 的 1 和 2 两 
部 分 。 请 注意 ， 如 果 符 号 a 在 + 中 出 现 多 次 ， 则 要 为 它 的 每 次 出 现 构 造 一 个 NFA。 


N 
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然后 ， 由 正规 表达 式 r 的 语法 结构 制导 ， 用 下 面 的 规则 3 逐步 地 组 合 前 面 构 造 的 NFA， 直 
到 获得 整个 正规 表达 式 的 NFA 为 止 。 在 构造 过 程 中 所 产生 的 中 间 NFA (与 7 的 子 表达 式 对 应 ) 
有 几 个 重要 的 性 质 : 只 有 一 个 终 态 ; 开始 状态 无 人 边 ， 终 态 无 出 边 。 

1. 对 es ， 构 造 NFA 


start € O 
其 中 , i 是 新 的 开始 状态 ，f 是 新 的 接受 状态 。 很 明显 这 个 NFA 识别 {e }。 
2. 对 于 三 中 的 每 个 符号 a， 构 造 NFA 


start Ci) a O 
同样 ，i 是 新 的 开始 状态 ，/ 是 新 的 接受 状态 。 这 个 NFA 识别 {a }。 


3. 如 果 Ms) 和 Nit) 是 正规 表达 式 s 和 + 的 NFA， 则 : 
a) 对 于 正规 表达 式 s11， 可 构造 复合 的 NFA NCs1t) 如 下 : 





这 里 i 是 新 的 开始 状态 ， 是 新 的 接受 状态 。 从 i 到 N(s) 和 ND) 的 开始 状态 有 e 转换 ， 从 
NGC) 和 NO 的 接受 状态 到 了 也 有 转换 。N(s) 和 NO 的 开始 和 接受 状态 不 是 Ws1t) 的 开始 和 
接受 状态 。 这 样 ， 从 i 到 f 的 任何 路 径 必须 独立 完整 地 通过 N(s) 或 N()， 因 此 这 个 复合 的 NFA 
识别 L(s)ULD。 

b) 对 于 正规 表达 式 st， 可 构造 复合 的 NFA Most) 如 下 : 


start N(2) 
©“O”® 


这 里 ，N(s) 的 开始 状态 成 为 复合 后 的 NFA 的 开始 状态 ，N(1) 的 接受 状态 成 为 复合 后 的 
NFA 的 接受 状态 。N(s) 的 接受 状态 和 MO 的 开始 状态 合并 ， 也 就 是 说 NO 的 开始 状态 上 的 所 
有 转换 现在 变 成 了 Ns) 的 接受 状态 上 的 转换 。 合 并 后 的 状态 不 作为 复合 后 的 NFA 的 接受 或 开 
始 状 态 。 从 i 到 f 的 路 径 必须 首先 经 过 N(s)， 然 后 经 过 NG()， 所 以 路 径 上 的 标记 是 LOLA 中 
的 串 。 因 为 没有 边 进入 NO 的 开始 状态 或 离开 NO 的 接受 状态 ， 所 以 从 i 到 的 路 径 不 能 从 
NA 回 到 N(s)， 因 此 复合 的 NFA 识 别 LO) LO). 

c) 对 于 正规 表达 式 s+ ， 可 构造 复合 的 NFA N(s*) 如 下 : 
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在 此 ，i 和 分 别 是 新 的 开始 状态 和 接受 状态 。 在 这 个 复合 的 NFA 中 ， 可 以 沿 着 一 条 标记 
Tee i 到 达 f， 这 表示 € 属于 (L(s))*。 我 们 还 可 以 从 i 经 过 一 次 或 多 次 N(s) 到 达 fo 显 
然 ， 这 个 复合 的 NFA 识别 (L(s))*。 

d) 对 于 括 起 来 的 正规 表达 式 (9)， 使 用 NG) 本 身 作 为 它 的 NFA。 

在 上 述 构造 过 程 中 ， 每 次 构造 的 新 状态 都 要 赋予 不 同 的 名 字 。 这 样 ， 任 何 NFA 的 两 个 状态 
都 具有 不 同名 字 。 即 使 同一 符号 在 r 中 出 现 多 次 ， 我 们 也 要 为 该 符号 的 每 个 实例 创建 一 个 独立 
的 带 有 自己 状态 的 NFA。 口 

可 以 验证 ， 算 法 3.3 构 造 的 每 一 步 都 产生 识别 对 应 语言 的 NFA。 此 外 ， 产 生 的 NFA 具有 下 
列 性 质 : . 

1. Nir) 的 状态 数 最 多 是 + 中 符号 和 运算 符 个 数 的 两 倍 。 因 为 构造 的 每 步 最 多 引入 两 个 新 

2. Nir) 只 有 一 个 开始 状态 和 一 个 接受 状态 ， 接 受 状态 没有 出 边 。 作 为 构成 成 份 的 每 个 自动 
机 也 具有 这 一 性 质 。 

3. NO 的 每 个 状态 或 者 有 一 个 用 中 的 符号 标记 的 出 边 , 或 者 至 多 有 两 个 标记 为 的 出 边 。 

例 3.16 我 们 用 算法 3.3 构 造 正规 表达 式 r= 
(alb)*abb 的 N (r)。 图 3-30 是 7 的 分 析 树 。 这 个 分 2" 
析 树 类 似 于 2.2 节 中 为 算术 表达 式 构造 的 分 析 树 。 S 
对 成 份 n C 即 第 一 个 a )， 构 造 它 的 NFA 如 下 : rs 


r 一 * a 
start Ð a ©) ( ~、、 
对 疡 ， 构 造 它 的 NFA 如 下 ; `~ 


start (4) b O a b 


图 3-30 (alb)*abb 的 分 解 
再 用 并 规则 组 合 Ne) 和 N(r2)， 得 到 r = rlr HANFA 如 下 : 


一 "下 
9 Tio 


N | 
b 





re= a 的 NFA 如 下 : 


start T) a ©) 


124 


Dn 


84 RSF 





我 们 合并 状态 7 和 7' ( 称 其 为 状态 7 ) 得 到 r; re 的 自动 机 ， 该 自动 机 如 下 : 





这 样 依次 做 下 去 ， 最 后 得 到 r= (alb)*abb 的 NFA， 如 图 3-27 所 示 。 口 
3.7.2 NFA 的 双 堆 栈 模拟 

现在 我 们 给 出 一 个 算法 ， 对 于 给 定 的 由 算法 3.3 生 成 的 NFA N 和 输入 串 x， 判 断 自 动机 N 
是 否 能 够 接受 字符 串 x。 算 法 每 次 从 输入 字符 串 读 取 一 个 字符 ， 然 后 计算 自动 机 N 在 读 人 输入 
字符 串 的 每 个 前 缀 后 可 能 进入 的 所 有 状态 的 集合 。 这 个 算法 利用 由 算法 3.3 生 成 的 NFA 的 一 些 
特殊 性 质 ， 有 效 地 计算 非 确定 的 状态 集合 。 这 个 算法 的 运行 时 间 与 IM x Ixl REE, AH, IM 
表示 的 状态 数 ，lxl 表示 串 x 的 长 度 。 


S := e-closure({sy}); 


、 a := nextchar, 

算法 3.4 模拟 NFA。 while a + eof do begin 

输入 : 由 算法 3,3 生 成 的 NFA N AIBA x, BREM S := €-closure(move(S, a)); 
AR x 由 字符 eof 做 结束 标记 ，N 以 状态 so 为 开始 状态 ， na 
F 是 接受 状态 集 。 if S NF + Ø then 


输出 : WRN Px, MAE “yes”, BEE “no”. eke narn “yes”: 

方法 : 把 图 3-31 给 出 的 算法 应 用 到 输入 串 zx。 这 个 算 
法 在 运行 时 执行 了 子 集 构造 算法 。 它 分 两 步 计 算 从 当前 。 ”图 3-31 模拟 由 算法 3.1 构 造 的 NFA 
状态 集 到 下 一 个 状态 集 的 转换 。 第 一 步 ， 它 先 求 move(S, a), MRA 8 在 输入 a ( 当前 输入 字 
R) 上 经 过 一 个 转换 能 到 达 的 所 有 状态 的 集合 。 第 二 步 求 出 move($, a) 在 经 过 0 个 或 多 个 e 转 
换 后 能 到 达 的 状态 集 。 算 法 每 次 使 用 函数 nextchar 从 输入 字符 串 x 读 下 一 个 字符 。 当 x 中 的 所 
有 字符 都 读 完 后 ， 如 果 接 受 状态 在 当前 集合 ? H, MAE “yes”, AARE “no”. o 


算法 3.4 可 以 使 用 两 个 堆栈 和 由 NFA 状态 做 索引 的 位 向 量 来 有 效 地 实现 。 一 个 堆栈 用 于 跟 
踪 非 确定 状态 的 当前 集合 的 轨迹 ， 另 一 个 堆栈 用 于 计算 下 一 个 非 确定 状态 集 。 我 们 使 用 图 3-26 
所 示 的 算法 来 计算 e -closure。 用 位 向 量 可 以 在 在 常数 时 间 内 判断 一 个 非 确定 状态 是 否 已 在 堆栈 
中 ， 以 防 重复 加 入 。 一 旦 我 们 已 经 在 第 二 个 栈 求 出 了 下 一 个 状态 ， 则 两 个 栈 的 角色 互 换 。 由 于 
每 一 个 非 确定 状态 至 多 有 两 个 输出 边 ， 因 此 每 个 状态 在 一 个 转换 中 至 多 会 增加 两 个 新 状态 。 我 
们 用 IM 表示 N 的 状态 数 。 因 为 一 个 栈 中 至 多 有 IM 个 状态 ， 所 以 计算 当前 状态 集 的 下 一 个 状 
态 集 的 时 间 与 IN 成 正比 。 因 此 ， 模 拟 N 在 输入 字符 串 x 上 的 行为 需要 的 时 间 正 比 于 IMIx Il。 


13.17 N 是 图 3-27 所 示 的 NFA, x 是 只 有 一 个 字符 a 的 输入 字符 串 。 开 始 状 态 是 e - 
closure ({0}) = {0, 1, 2, 4, 7}。 当 输入 为 a 时， 状态 2 转换 到 状态 3 ， 状 态 7 转换 到 状态 8， 因 此 
T={3，8}。 取 了 的 e-closure 得 到 下 一 个 状态 {1, 2, 3, 4, 6, 7, 8}， 其 中 的 状态 都 不 是 接受 状态 ， 
因此 ， 算 法 返回 “no”。 

注意 ， 算 法 3.4 是 在 运行 时 执行 子 集 构造 法 的 。 例 如 ， 比 较 上 述 的 转换 和 图 3-29 中 由 图 3-27 的 
NFA 构造 的 DFA 状态 图 。 开 始 状态 集 和 读 a 后 可 达到 的 状态 集 对 应 着 DFA WAN BRS 口 
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3.7.3 时 间 空 间 的 权衡 

给 定 一 个 正规 表达 式 r 和 输入 字符 串 x, 我 们 已 经 介绍 了 两 种 方法 来 确定 x 是 否 在 Lr) 中 。 
第 一 种 方法 是 利用 算法 3.3 为 + 构造 一 个 NFA N。 这 种 构造 法 的 时 间 复 杂 性 是 O rl), HP ir 
是 7 的 长 度 。N 至 多 具有 两 倍 于 lr 的 状态 ， 每 一 个 状态 至 多 有 两 个 转换 ， 因 此 N 的 转换 表 的 
空间 复杂 性 是 O (irl). REAR AlN 是 否 接受 字符 串 x， 其 时 间 复 杂 性 是 (r x lal). 
我 们 使 用 这 种 方法 判断 x 是 否 在 LO) 中 的 时 间 代 价 正比 于 7+ 的 长 度 和 x 长 度 的 乘积 。 在 很 多 文 
本 编辑 器 中 ， 当 目标 字符 串 x 不 是 很 长 时 ， 可 以 用 这 种 方法 寻找 正规 表达 式 模式 。 

第 二 种 方法 是 先 用 Thompson 构造 法 (算法 3.3 ) 从 正规 表达 式 + 构造 其 NFA， 然 后 再 用 
子 集 构造 法 ( 算法 3.2 ) 构造 DFA (3.9 节 将 介绍 一 种 避免 显 式 生 成 中 间 NFA 的 构造 方法 )。 我 
们 利用 转换 表 实 现状 态 转换 函数 ， 并 使 用 算法 3.1 模 拟 DFA TERRA x 上 的 动作 。 这 个 算法 时 
间 代 价 与 x 的 长 度 成 正比 , 但 与 DFA 的 状态 数 无 关 。 这 种 方法 经 常用 于 在 文本 文件 中 寻找 正 
规 表 达 式 模式 的 模式 匹配 程序 。 一 旦 有 穷 自动 机 创建 成 功 ， 查找 的 速度 将 非常 快 。 当 目标 串 x 
非常 长 时 ， 这 种 方法 是 很 有 利 的 。 

然而 ， 存在 一 些 正 规 表达 式 ， 它 们 的 最 小 DFA 也 有 很 多 的 状态 ， 其 状态 数 是 正规 表达 式 大 [127 
小 的 指数 。 例 如 ， 若 正规 表达 式 (alb)*a(alb)(alb)…(alb) 包含 n - 1 个 (alb )， 则 识别 该 正规 表 
达 式 的 任意 DFA 的 状态 数 不 可 能 少 于 2"。 这 个 正规 表达 式 表示 a 和 b 的 字符 串 ， 这 个 字符 串 
的 倒数 第 n 个 字符 是 a。 不 难 证 明 这 个 正规 表达 式 的 任何 一 个 DFA 都 必须 记忆 输入 字符 串 的 
最 后 个 字符 的 轨迹 ， 否 则 ， 它 会 给 出 错误 的 答案 。 显 然 ， 至 少 和 需要 2 个 状态 来 记忆 任何 由 a 
Al b 构成 的 长 度 为 x 的 字符 串 的 轨迹 。 虽 然 在 一 些 应 用 中 会 出 现 类 似 的 正规 表达 式 , 但 幸运 的 
是 ， 在 词法 分 析 应 用 中 ， 这 种 情况 并 不 经 常 出 现 。 

另 一 种 方法 是 使 用 DFA ， 但 通过 利用 “惰性 转换 计算 ”技术 来 避免 创建 整个 状态 转换 表 。 
转换 是 在 运行 时 计算 的 ， 只 有 在 真正 需要 的 时 候 才 去 计算 给 定 状态 在 给 定 输入 上 的 转换 。 计 算 
的 转换 存储 在 cache 中 。 每 次 要 进行 状态 转换 时 ， 先 检查 cache。 如 果 需 要 的 转换 不 在 cache 
中 ， 我 们 才 去 计算 它 ， 并 将 其 存 人 cache。 如 果 cache 满 了 ， 我 们 可 以 清除 一 些 旧 的 转换 ， 为 
新 的 转换 腾 出 空间 。 

图 3-32 总 结 了 用 从 NFA 和 DFA 构造 的 识 














别 器 判断 输入 字符 串 x 是 否 在 由 正规 表达 式 + 表 时 间 
示 的 语言 中 所 需 的 最 坏 的 时 间 、 空 间 复杂 性 。 oclelx tel) 


oO (|x|) 
“HEHE” PP REEA YT NEA 的 空间 需求 小 和 DFA 


(ay an 、 E EnS IEH À 
的 时 间 需 求 小 的 特点 。 它 的 空间 需求 是 正规 表 图 3-32 识别 正规 表达 式 所 需 的 空间 和 时 间 

达 式 的 大 小 加 上 cache 的 大 小 。 它 的 运行 时 间 几 乎 与 DFA 识别 器 相同 。 在 某 些 应 用 中 ,“ 惰 性 ” 
技术 比 DFA 方法 还 要 快 ， 因 为 它 没有 计算 不 必要 的 状态 转换 。 


3.8 设计 词法 分 析 器 的 生成 器 


本 节 讨论 从 Lex 语言 程序 自动 生成 词法 分 析 器 的 软件 工具 的 设计 。 尽 管 我 们 将 给 出 多 种 方 
法 ， 并 且 没 有 哪 一 种 方法 与 UNIX 系统 的 Lex 命令 所 用 方法 完全 相同 ， 但 我 们 仍 称 这 些 生成 词 
法 分 析 器 的 程序 为 Lex 编译 器 。 
假设 词法 分 析 器 的 说 明 形 式 如 下 : 12 


pi { action, } 
P2 { action, } 


oo 
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Pn { action, } Lex 说 明 转换 表 
与 3.5 节 相同 ， 其 中 每 个 p; 都 是 正规 表达 式 ， 每 
a) 


个 action, 是 当 输 入 字符 串 中 的 一 个 词素 匹配 p 
后 要 执行 的 程序 段 。 

我 们 的 问题 是 怎样 构造 一 个 在 输入 缓冲 区 
中 查找 词素 的 识别 器 。 如 果 有 多 个 模式 匹配 成 
J, 识别 器 将 选择 与 最 长 词素 匹配 的 模式 。 如 
果 有 多 个 模式 与 最 长 词素 匹配 ， 则 选择 第 一 个 
与 最 长 词素 匹配 的 模式 。 

有 穷 自 动机 是 一 种 创建 词法 分 析 器 的 自然 
模型 。 由 Lex 编译 器 构造 出 的 词法 分 析 器 具有 
图 3-33b 所 示 的 结构 。 与 3.2 节 介绍 的 一 样 ， 有 一 
个 输入 缓冲 区 ， 缓 冲 区 有 两 个 指针 ， 其 中 一 个 
是 词素 的 开始 指针 ， 另 一 个 是 词素 的 向 前 指针 。 
Lex 编译 器 根据 使 用 Lex 说 明 书 写 的 正规 表达 式 
模式 为 有 穷 自动 机 构造 转换 表 。 词 法 分 析 器 本 
身 包括 一 个 有 穷 自 动机 模拟 器 ， 这 个 模拟 器 使 用 转换 表 在 输入 缓冲 区 中 查找 正规 表达 式 模式 。 

本 节 的 剩余 部 分 将 介绍 基于 NFA 或 DFA 的 Lex 编译 器 的 实现 。 在 上 一 节 的 最 后 我 们 已 经 
看 到 ， 由 正规 表达 式 生成 的 NFA 的 转换 表 远 小 于 DFA 的 转换 表 ， 但 进行 模式 匹配 时 DFA 比 
NFA 要 快 得 多 。 

3.8.1 基于 NFA 的 模式 匹配 

一 种 基于 NFA 的 模式 匹配 方法 是 为 模式 pi 
1pz |---| p BY) NFA N 构造 状态 转换 表 。 为 此 ， 
我 们 可 以 首先 使 用 算法 3.3 为 每 个 模式 pi 构造 
NFA N (p;)， 然 后 加 入 一 个 新 的 开始 状态 so, 
并 用 e 转换 将 so 和 每 个 N(p; ) 的 开始 状态 相连 ， 
如 图 3-34 所 示 。 

我 们 可 以 把 算法 3.4 稍 做 修改 来 模拟 这 个 
NFA。 修 改 必须 保证 该 NEA 能 识别 输入 字符 中 图 3-34 根据 Lex 说 时 构造 的 NFA 
中 被 匹配 的 最 长 前 缀 。 在 这 个 NFA 中 ， 每 一 个 模式 p; 有 一 个 接受 状态 。 当 使 用 算法 3.4 模 拟 
NFA 时 ， 我 们 构造 一 个 状态 集 序 列 ， 其 中 每 个 状态 集 都 是 NFA 看 到 每 个 输入 字符 后 能 够 进入 
的 状态 集 。 即 使 在 一 个 状态 集中 包括 了 一 个 接受 状态 ， 但 为 了 实现 最 长 的 匹配 ， 我 们 仍 需 继续 
模拟 NFA， 穷 尽 当 前 输入 符 上 的 所 有 转换 ， 即 到 达 一 个 终止 。 

假设 我 们 设计 的 Lex 说 明 对 任何 一 个 有 效 的 源 程序 来 说 ， 在 NFA 没有 到 达 终 止 之 前 ， 这 
个 源 程 序 都 不 会 完整 地 进入 输入 缓冲 区 。 例 如 ， 每 一 种 编译 器 都 对 标识 符 的 长 度 有 限制 。 当 输 
人 缓冲 区 溢出 时 ， 这 种 限制 将 被 检测 。 

为 了 找到 正确 的 匹配 ， 我 们 对 算法 3.4 做 两 点 修改 。 第 一 ， 每 当 给 当前 状态 集 加 入 一 个 接 
受 状态 时 ,我 们 要 记录 当前 输入 的 位 置 和 与 这 个 接受 状态 对 应 的 模式 p; 。 如 果 当 前 状态 集 已 经 
包括 了 一 个 接受 状态 ， 那 么 只 记录 在 Lex 说 明 中 先 出 现 的 那个 模式 。 第 二 ， 不 断 地 进行 状态 转 


词素 


输入 缓冲 区 





b) 
图 3-33 Lex 编 译 器 模型 
a) Lex 编 译 器 b) 词法 分 析 器 示意 图 
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换 直到 遇 到 NFA 进入 终止 。 当 进入 终止 时 ， 我 们 把 向 前 指针 回 退 到 最 后 一 次 匹配 的 位 置 。 做 
出 这 个 匹配 的 模式 可 以 识别 发 现 的 记号 ， 而 且 被 匹配 的 词素 是 开始 指针 和 向 前 指针 之 间 的 串 。 

通常 ， 我 们 所 写 的 Lex 说 明 总 能 使 某 个 模式 〈 也 可 以 是 错误 模式 ) 匹配 成 功 。 如 果 没有 一 
个 模式 能 匹配 成 功 ， 则 意味 着 我 们 没 把 错误 情况 考虑 周全 ， 此 时 词法 分 析 器 需要 把 控制 转 给 某 
个 默认 的 错误 恢复 程序 。 


例 3.18 一 个 简单 的 例子 可 以 说 明 上 述 想 法 。 假 设 有 一 个 如 下 所 示 的 Lex 程序 ， 它 由 三 个 
正规 表达 式 组 成 ， 且 没有 正规 定义 : 


a {}/* 这 里 忽略 了 动作 */ 
abb {} 
a*b* {} 


上 述 三 类 记号 可 以 由 图 3-35a 所 示 的 自动 机 识别 。 第 三 个 自动 机 是 算法 3.3 所 生成 的 自动 机 
的 化 简 形 式 。 如 前 所 述 ， 我 们 可 以 将 图 3-35a 所 示 的 三 个 自动 机 合并 成 图 3-35b 所 示 的 NFA N。 


start (1) a ©) 
AG) 4) 4) © 
a b 





b) 
图 3-35 识别 三 个 不 同 模式 的 NFA 
a)a, abb 和 a*b BY NFA b) 组合 后 的 NFA 


现在 让 我 们 用 修改 后 的 算法 3.4 模 拟 N 在 输入 串 aaba 上 的 行为 。 图 3-36 给 出 了 读 人 输入 串 
aaba 中 的 每 一 个 字符 时 自动 机 可 能 到 达 的 状态 集 和 匹配 上 的 模式 。 初 始 的 状态 集合 是 {0, 1, 3, 
7}。 当 输入 字符 aif, REL 、3、7 分 别 有 一 个 到 状态 2、4 和 7 的 转换 。 因 为 状态 2 是 第 一 个 模 
式 的 接受 状态 ， 我 们 记录 了 如 下 事实 : 在 读 人 第 一 个 符号 a 时 第 一 个 模式 匹配 成 功 。 

pi ps 
b i 


a : a : a 
一 一 一 一 一 一 一 一 





图 3-36 在 处 理 输入 aaba 的 过 程 中 进入 的 状态 集 的 序列 
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然而 ， 状 态 7 在 第 二 个 输入 字符 上 有 一 个 到 自身 的 转换 ， 因 此 我 们 还 得 继续 进行 下 去 。 对 
输入 字符 bp 状态 7 有 一 个 到 状态 8 的 转换 。 状 态 8 是 第 三 个 模式 的 接受 状态 。 到 达 状 态 8 后 ， 读 
人 下 一 个 字符 a 时 没有 可 以 实现 的 转换 ， 所 以 到 达 了 终止 状态 集 。 因 为 最 后 一 次 匹配 是 在 读 人 
第 三 个 字符 时 发 生 的 ,所 以 报告 的 第 三 个 模式 匹配 上 的 词素 是 aab。 口 


在 Lex 说 明 中 与 模式 p 相关 的 动作 action: 的 作用 如 下 : 当 识 别 出 p; 的 一 个 实例 时 ， 词 法 
分 析 器 就 执行 相关 联 的 程序 acriom 。 注 意 ， 当 NFA 进入 到 一 个 包含 接受 状态 的 状态 集 时 ， 与 
Pi 对 应 的 action, 并 不 一 定 马 上 执行 ， 只 有 疡 是 产生 最 长 匹配 的 模式 时 ，actiom; 才 被 执行 。 
3.8.2 词法 分 析 器 的 DFA 

从 Lex 说 明 构 造 词法 分 析 器 的 另 一 种 方法 是 使 用 DFA 完成 模式 匹配 。 这 种 方法 与 上 面 描述 
的 对 NFA 的 模拟 完全 类 似 ， 只 是 在 确定 正确 的 模式 匹配 时 有 一 些 细微 的 差别 。 当 我 们 使 用 子 
集 构 造 算 法 3.2 进 行 NFA 到 DPA 的 转换 时 ， 在 一 个 非 确定 状态 的 子 集中 可 能 会 有 多 个 接受 状 
态 。 在 这 种 情况 下 ， 在 Lex 说 明 中 位 置 靠 前 的 模式 对 应 的 接受 状态 具有 优先 权 。 类 似 于 模拟 
NFA， 在 穷尽 对 当前 的 输入 符号 的 转换 之 前 ， 我 们 还 需要 继续 进行 状态 转换 。 为 了 找到 匹配 的 
词素 ， 我 们 需要 将 缓冲 区 的 向 前 指针 返回 到 DFA 最 后 一 次 进入 到 接受 状态 时 的 位 置 上 。 


例 3.19 ”如 果 将 图 3-35 所 示 的 NFA 转换 成 DFA， 我 们 将 得 到 图 3-37 所 示 的 状态 转换 表 ， 
其 中 ，DFA 的 状态 是 用 NFA 的 状态 序列 命名 的 。 图 3-37 的 最 后 一 列 给 出 了 当 进 入 DFA 的 每 个 
状态 时 它 能 识别 的 模式 。 例如 , 在 NFA 的 状态 2、 7 
4、7 中 ， 只 有 2 是 接受 状态 。 它 是 正规 表达 式 a Ra [ a | 6 | 识别 的 模式 
对 应 的 自动 机 ( 见 图 3-3$a ) 的 接受 状态 。 因 此 ， 
DFA 的 状态 247 识 别 模式 a。 

注意 ， 字 符 串 abb 能 被 两 个 模式 abb 和 
a*b 匹配 ， 其 接受 状态 分 别 为 NFA 的 6 和 8。 
DFA 的 状态 68( 转换 表 的 最 后 一 行 ) 包括 了 - 

NFA 的 两 个 接受 状态 。 由 于 在 Lex 声明 的 转换 图 3-37 DFA 的 转换 表 
规则 中 abb 出 现 得 比 a*b* 早 ， 因 此 当 DPA 处 于 状态 68 时 ， 模 式 abb 匹配 成 功 。 

当 输入 串 为 aaba WY, DFA 进入 的 状态 是 通过 模拟 NFA 得 到 的 ， 如 图 3-36 所 示 。 我 们 来 考 
虑 另外 一 个 例子 ， 假 定 输入 串 是 aba。 图 3-37 的 DFA 开始 于 状态 0137。 当 读 人 a 后 , 它 进入 
状态 247。 读 人 b 后 进入 状态 58， 但 是 再 输入 a 时 它 没有 下 一 个 转换 状态 ， 即 DFA 依次 经 过 状 
态 0137、247、58 后 终止 ， 其 中 最 后 一 个 状态 包括 了 NFA 的 接受 状态 8 ( 图 3-35a )。 因 此 在 状 
态 58，DFA 识 别 了 模式 a*xb*， 并 选择 输入 字符 串 的 前 级 ab 作为 识别 出 来 的 词素 。 口 


3.8.3 实现 超前 扫描 操作 

我 们 在 3.4 节 曾经 介绍 过 ， 由 于 在 某 些 情况 下 表示 特定 记号 的 模式 可 能 需要 描述 实际 词素 
后 面 的 一 部 分 正文 ， 所 以 需要 使 用 超前 扫描 操作 符 / 。 将 一 个 含有 / 的 模式 转化 成 NFA 时 ， 可 
以 将 / 看 成 e ， 使 得 我 们 不 用 真正 地 在 输入 字符 串 中 查找 / 。 然 而 ， 当 由 这 样 的 正规 表达 式 表 
示 的 字符 串 在 输入 缓冲 区 中 被 识别 出 来 时 ， 词 素 的 末尾 并 不 在 NFA 的 接受 状态 的 位 置 上 ， 而 
是 在 最 后 一 个 在 〈 假想 的 ) /上 具有 转换 的 状态 上 。 
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例 3.20 图 3-38 是 识别 例 3.12 中 给 出 的 IF 模式 对 应 的 NFA。 状 态 6 表 明了 关键 字 IF 的 出 
现 。 但 是 我 们 需要 返回 到 状态 2 去 寻找 记号 IF. 口 
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any 


start (0) I D F (2) € G) ( Q ) CHO 


图 3-38 识别 Fortran 关键 字 IF 的 NFA 
3.9 基于 DFA 的 模式 匹配 器 的 优化 


本 节 给 出 三 个 算法 ， 这 些 算法 已 经 应 用 于 由 正规 表达 式 构造 模式 匹配 器 的 实现 和 优化 。 第 
一 个 算法 适 于 集成 到 Lex 编译 器 中 ， 因为 它 直 接 由 正规 表达 式 创建 DFA， 而 不 创建 中 间 的 
NFA, 

第 二 个 算法 能 最 小 化 DFA 的 状态 数 ， 所 以 可 用 于 减 小 基于 DFA 的 模式 匹配 器 的 大 小 。 这 
个 算法 是 高 效 的 ， 其 运行 时 间 是 0 (nlogn), n 是 DFA 中 的 状态 数 。 第 三 个 算法 用 来 生成 一 个 
比 通常 的 二 维 表 查询 效率 更 快 、 更 紧凑 的 DFA 的 状态 转换 表 的 表示 形式 。 

3.9.1 NFA 的 重要 状态 

如 果 一 个 NFA 的 状态 有 一 个 标记 为 非 e 的 出 边 ， 则 称 这 个 状态 是 重要 状态 。 图 3-25 中 的 子 
集 构造 法 在 确定 € -closure (move (T, a )) 时 只 使 用 了 子 集合 T 中 的 重要 状态 。 仅 当 状态 s 是 
重要 的， 集合 move (s, a) 才 是 非 空 的 。 在 构造 过 程 中 ， 两 个 子 集 可 以 被 认为 是 等 同 的 ， 如 
果 它 们 的 重要 状态 相同 并 且 两 者 同时 包含 或 不 包含 NFA 的 接受 状态 。 

当 子 集 构造 法 被 应 用 到 由 正规 表达 式 经 算法 3.3 生 成 的 NFA 时 ,我 们 可 以 利用 NFA 的 特殊 
性 质 来 将 两 种 构造 方法 合 二 为 一 。 合 并 的 构造 法 把 NFA 的 重要 状态 与 出 现在 正规 表达 式 中 的 
符号 相关 联 。 只 有 字母 表 上 一 个 符号 出 现在 正规 表达 式 中 时 ，Thompson 构造 法 才 创 建 一 个 重 
要 状态 。 例 如 ， 对 于 (alb)*abb, Thompson 构造 法 为 每 个 a 和 6b 创建 重要 状态 。 

此 外 ,结果 NFA 有 且 只 有 一 个 接受 状态 , 但 该 接受 状态 不 是 重要 的 ， 因 为 它 没有 出 边 。 
通过 在 正规 表达 式 r 右 端 连接 一 个 惟一 的 结束 符 #， 我 们 给 的 接受 状态 增加 一 个 在 # 上 的 转 
换 ， 使 它 成 为 NFA 的 重要 状态 。 换 名 话说 ， 通 过 使 用 扩展 的 正规 表达 式 (7)#， 在 子 集 构造 过 
程 中 可 以 忽略 接受 状态 。 当 构造 结束 时 ， 任 何在 # 上 有 转换 的 DFA 的 状态 都 是 接受 状态 。 

我 们 用 语法 树 表 示 扩 展 的 正规 表达 式 。 语 法 树 的 叶 节 点 表示 基本 符号 , 内 节点 表示 操作 符 。 
如 果 一 个 内 节点 被 标记 为 连接 1 或 * 操作 符 ， 则 分 别称 其 为 cat- 节 点 、or- 节 点 或 star- 节 点 。 
图 3-39a 是 一 个 表示 正规 表达 式 的 语法 树 ， 其 中 cat- 节 点 用 图 点 来 表示 。 正 规 表 达 式 语法 树 的 构 
造 方法 与 第 2 章 中 构造 算术 表达 式 语法 树 的 方法 相同 。 

正规 表达 式 语 法 树 的 叶 节 点 由 符号 表 中 的 符号 或 e 标记 。 对 于 每 一 个 非 e 标记 的 叶 节 点 ， 
我 们 分 配 一 个 惟一 的 整数 ， 这 个 整数 表示 叶 节 点 的 位 置 ， 同 时 也 表示 对 应 符号 的 位 置 。 一 个 重 
复出 现 的 符号 会 有 多 个 位 置 。 在 图 3-39a 中 ,位 置 标 记 在 符号 的 下 边 。 在 图 3-39c 的 NFA 中 被 编 
号 的 状态 对 应 着 图 3-39a 的 叶 节 点 的 位 置 。 这 些 状态 是 NFA 的 重要 状态 。 在 图 3-39c 中 ， 非 重要 
状态 用 大 写字 母 来 表示 。 

如 果 使 用 子 集 构 造 法 并 将 具有 相同 重要 状态 的 状态 集 视 为 等 同 的 ， 则 可 由 图 3-39c 的 NFA 
获得 图 3-39b 中 的 DFA。 把 含有 相同 重要 状态 的 状态 集 视 为 等 同 的 状态 集 使 得 生成 的 DF A 具有 
更 少 的 状态 。 图 3-39b 中 的 DFA 比 图 3-29 所 示 的 DFA 少 一 个 状态 。 

3.9.2 ”从 正规 表达 式 到 DFA 

本 节 介 绍 如 何 从 一 个 扩展 的 正规 表达 式 (7)# 构造 DFA。 首 先 为 正规 表达 式 o+ 构造 一 个 

语法 树 7， 然 后 通过 遍历 这 棵 语法 树 计 算 nullable, firstpos, lastpos 和 followpos 四 个 函数 。 最 
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后 我 们 由 foliowpos 构造 DFA。 函 数 nullable. firstpos 和 lastpos 定义 在 语法 树 的 节点 上 ， 用 于 
tt pA followpos, Tek foliowpos 定义 在 位 置 集合 上 。 





图 3-39 从 (alb)*abb# 构造 的 DFA 和 NFA 


a) (alb) * abb# 的 语法 树 b) 结果 DFA c) 基础 NFA 

利用 NFA 的 重要 状态 和 正规 表达 式 语 法 树 的 叶 节 点 的 等 价 性 ， 我 们 可 以 绕 过 NFA 的 构造 
而 直接 构造 一 个 其 状态 对 应 于 语法 树 的 位 置 集合 的 DFA。NFA 的 € 转换 表示 相当 复杂 的 位 置 结 
构 。 特 别 地 ， 它 包含 了 这 样 的 信息 : 什么 时 候 一 个 位 置 可 以 跟随 另 一 个 位 置 ， 即 输入 到 DFA 
的 字符 串 中 的 每 一 个 符号 都 可 以 被 一 个 位 置 匹 配 。 一 个 输入 符号 c 只 能 由 具有 符号 c 的 位 置 匹 
配 ， 但 不 是 每 一 个 具有 符号 c 的 位 置 都 一 定 匹配 输入 字符 串 中 c 的 一 次 出 现 。 

一 个 位 置 匹配 一 个 输入 符号 的 概念 将 由 函数 followpos EX, WR i 是 一 个 位 置 ， 那 么 
followpos (i ) 是 满足 如 下 条 件 的 位 置 j 的 集合 : 对 于 某 个 输 和 人 字符 床 cde, 位 置 i 对 应 着 c 
的 出 现 , 位 置 j 对 应 着 d 的 出 现 。 


例 3.21 在 图 3-39a 中 ，followpos (1) = {1, 2,3}, FARE: 如 果 我 们 看 到 一 个 对 应 位 置 1 的 
a， 则 我 们 发 现 了 财 包 (alb)* 中 ab 的 一 个 出 现 。 我 们 可 能 接 下 来 还 会 看 到 alb 的 下 一 次 出 现 的 
开始 位 置 ， 这 就 解释 了 为 什么 1 和 2 在 followpos (1) 中。 同样 ,我 们 也 可 能 接着 看 到 跟 在 (alb)* 
后 面 出 现 的 符号 的 开始 位 置 ， 即 位 置 3。 oO 


Ay TH PBR .foliowpos， 我 们 需要 知道 什么 位 置 能 够 匹配 由 一 个 给 定 的 正规 表达 式 的 子 
表达 式 生 成 的 字符 串 的 第 一 个 或 最 后 一 个 符号 〈 这 样 的 信息 在 例 3.21 中 也 非 正式 地 用 过 )。 如 
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Bort 是 这 样 的 子 表 达 式 ，r 的 每 一 个 开始 位 置 都 跟随 r 的 每 个 结束 位 置 。 类 似 地 ， 如 果 rs 是 
子 表 达 式 ， 则 s 的 每 个 开始 位 置 都 跟随 的 每 个 结束 位 置 。 

在 正规 表达 式 的 语法 树 的 每 个 节点 a 上， 我 们 定义 一 个 函数 firstpos(n)， 它 是 与 以 节点 n 
为 根 的 子 表 达 式 生成 的 字符 串 中 第 一 个 符号 相 匹配 的 位 置 集 合 。 同 样 地 ， 我 们 也 可 以 定义 函 
数 lastpos (n)， 它 是 与 这 样 的 字符 串 的 最 后 一 个 符号 相 匹 配 的 位 置 集合 。 例 如 ， 如 果 n 是 图 3- 
39a 中 语法 树 的 根 节点 ,那么 fisrtpos (n) = {1, 2, 3}, lastpos (n) = {6}。 随 后 我 们 将 给 出 计算 这 
些 函 数 的 算法 。 

为 了 计算 firstpos 和 lastpos ， 我 们 需要 知道 产生 包含 空 串 语言 的 子 表达 式 的 根 节点 。 这 样 
的 节点 称 为 可 空 的 。 此 外 ， 如 果 节 点 n 是 可 空 的 ， 则 定义 nullable(n) 为 真 ， 否 则 为 假 。 

下 面 我 们 给 出 计算 函数 nullable. firstpos, lastpos 和 followpos 的 规则 。 对 于 前 三 个 函数 ， 
我 们 用 一 条 基本 规则 给 出 基本 符号 的 表达 式 ， 然 后 使 用 三 条 归纳 性 规则 沿 着 语法 树 自 底 向 上 地 
确定 函数 的 值 。 这 三 条 归纳 性 规则 分 别 对 应 于 语法 树 中 的 并 、 连 接 和 闭 包 操作 符 。 计 算 
nullabe 和 firstpos 的 规则 在 图 3-40 中 给 出 。 计 算 lastpos (n) 的 规则 与 计算 firstpos(n) 的 规则 相 
同 , 但 是 要 调换 c, 和 cs 的 位 置 ， 在 此 不 再 一 一 列举 。 

















节点 nn nullable (n) [ firstpos(n) 
~ + 上 
n 是 一 个 标记 
为 e 的 叶 节点 true 他 
n 是 一 个 术 记 为 false : 
位 置 的 叶 节 点 ti) 





+— —- 


n 
SQ nullable (c,) or nudlable(c,) | firstpos(c,) U firstpes(c) 


fT 
n (。) if nullable (c,) then 
nullable (c,) and nullable (c3) | firstpos(c,) U firstpos{c2) 
C) (2) else firstpos (cı) 


一- 


n i 
true ` firstpos(c,) 


图 3-40 计算 nullable 和 firstpos 的 规则 

nullable 的 第 一 条 规则 是 : 如 果 " 是 标记 为 < 的 叶 节点 ， 则 nullablen) 为 真 。 第 二 条 规则 是 : 
如 果 n 是 由 一 个 字符 表 中 的 符号 标记 的 叶 节 点 ， 则 nullable(n) 为 假 。 在 这 种 情况 下 ， 每 一 个 叶 节 
点 对 应 一 个 输入 符号 ， 因 此 不 能 产生 e 。nullable 的 最 后 一 条 规则 是 : 如 果 n 是 具有 子 节点 ci 的 
5tar- 节 点 ， 则 nullable(n) 为 真 ， 因 为 一 个 表达 式 的 闭 包产 生 包 括 € 的 语言 。 

作为 另 一 个 例子 ，jJirstpos 的 第 四 条 规则 是 : 如 果 mn 是 具有 左 子 节点 ci 和 右 子 节点 cz 的 caf- 节 
点 而 且 nullable(c,) 为 真 ， 则 

firstpos (n) = firstpos(c\) U firstpos(c2) 

否则 ，firstpos(n) =firstpos(c1)。 这 个 规则 说 明 ， 如 果 正 规 表达 式 r 产 生 一 个 e ， 则 * 的 第 一 
个 位 置 就 会 “ 透 过 ”r， 成 为 rs 的 第 一 个 位 置 。 否 则 ， 只 有 x 的 第 一 个 位 置 是 rs 的 第 一 个 位 置 。 
nullable 和 firstpos 的 其 余 规则 类 似 。 

函数 followpos(i) 表明 在 语法 树 上 哪些 位 置 紧 跟 在 i 的 后 面 出 现 。 下 边 的 两 条 规则 定义 了 
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一 个 位 置 可 以 跟随 另 一 个 位 置 的 各 种 情况 : 

1. 如 果 n 是 ca 节点 ， 它 具有 左 子 节点 o 和 右 子 节点 o, IFA i 是 lastpost) 中 的 一 个 位 
置 ， 则 firstpos(co) 中 的 所 有 位 置 都 在 followpos(i) 中 ; 

2. WR n 是 star WA, HA i lastpos(n) 中 的 一 个 位 置 ， 则 所 有 firstpos(n) 中 的 位 置 都 
在 followpos(i) 中 。 

如 果 每 个 节点 的 firstpos 和 lastpos 都 已 经 计算 了 ， 那 么 通过 对 语法 树 进行 一 次 深度 优先 遍 
历 就 可 以 计算 每 一 个 位 置 的 followpos. 


例 3.22 图 3-41 显 示 了 图 3-39a 中 语法 树 的 所 有 节点 的 firstpos 和 lastpos 的 值 。firstpos(n) 
在 节点 的 左边 ，lastpos(n) 在 节点 的 右边 。 例 如 ， 标 记 为 a 的 最 左 叶 节点 的 firstpos 值 是 {1}， 
这 是 因为 这 个 叶 节 点 被 标记 为 位 置 1。 类 似 地 ， 第 二 个 叶 节 点 的 firstpos 是 {2}， 因 为 它 由 位 置 2 


标记 着 。 由 图 3-40 中 的 第 三 条 规则 可 知 它们 的 父 节点 的 firstpos 是 {1,2})。 


{1,2,3} © {6} 
{1,2,3} 。 {5} {6} # {6} 
{1,2,3} 。 {4} {5} b {5} 
{1.2.3} © {3} {4} b {4} 


-一 N 
{1,2} * {1,2} {3} a {3} 
| 
{1,2} 1 {1,2} 


-一 NS 
{i} a {th {2} b {2} 
图 3-41 (alb)*abb# 的 语法 树 中 节点 的 firstpos 和 lastpos 


标记 为 * 的 节点 是 惟一 可 空 的 节点 。 根 据 第 四 条 规则 中 的 if 条 件 ， 该 节点 的 父 节点 (表示 
(abah A) 的 firstpos 的 值 是 {1,2) 与 {3} 的 并 ，{1, 2} 和 {3} 分 别 是 其 左右 子 节 点 的 firstpos 的 
值 。 另 一 方面 ，else 条 件 适用 于 该 节点 的 lastpos 函数 ， 因 为 在 位 置 3 上 的 叶 节 点 是 不 可 空 的 。 因 
此 star- 节 点 的 父 节点 的 lastpos 只 包含 位 置 3。 一 一 一 一 一 一 

现在 让 我 们 自 底 向 上 地 计算 图 3-41 语 法 树 
中 每 个 节点 的 folliowpos。 在 star- 节 点 ， 我 们 根 
据 规 则 2 把 1 和 2 加 入 到 followpos(1) 和 
followpos (2) 中 。 在 star- 节 点 的 父 节点 ， 我 们 





根据 规则 1 将 位 置 3 加 入 到 followpos(1) 和 6 - 
followpos (2) 中 。 在 下 一 个 cat- 节点 ， 根 据 规 图 3-42 followpos 函数 
则 1 将 4 加 入 到 followpos (3) 中 ， 在 接 下 来 的 两 
个 cat- 节 点 我 们 根据 同一 规则 将 5 加 入 到 C11) 
followpos (4) 中 并 将 6 加 入 到 followpos (5) 中 。 
Buk, BRT followpos 的 构造 。 图 3-42 总 结 N (4) (5) (6) 
了 followpos 的 内 容 。 
我 们 可 以 通过 创建 一 个 有 向 图 来 表示 函数 。 = CO 


followpos， 其 节点 表示 位 置 ， 从 i 到 j 的 有 向 图 3-43 函数 followpos 的 有 向 图 
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边 表示 j TE followpos(i) 中 。 图 3-43 表 示 了 图 3-42 所 示 的 followpos WA HA. 
这 个 有 向 图 可 以 看 成 是 我 们 正在 讨论 的 正规 表达 式 的 无 转换 的 NFA， 如 果 满 足以 下 三 条 : 
1. 根 节点 的 firstpos 中 的 所 有 位 置 作为 开始 状态 。 
2. 每 一 个 有 向 边 Ci, j) 用 位 置 上 的 符号 标记 。 
3. 把 与 # 相 关 的 位 置 看 成 是 惟一 的 接受 状态 。 
毫 无 疑问 ， 我 们 可 以 使 用 子 集 构造 法 把 followpos 图 转化 成 DFA。 使 用 下 面 的 算法 ，DFA 的 构 
造 可 以 基于 该 位 置 实现 。 口 


算法 3.5 从 正规 表达 式 > 构造 DFA。 

输入 : 正规 表达 式 r。 

输出 : 识别 Zn 的 DFA De 

方法 : 

1. 构造 扩展 的 正规 表达 式 ( 门 # 的 语法 树 T， 其 中 # 是 附加 在 (7) 后 面 的 惟一 结束 标志 。 

2. 通过 对 了 进行 深度 优先 遍历 计算 函数 nullable. firstpos. lastpos 和 followpos 的 值 。 

3. 利用 图 3-44 所 示 的 过 程 构造 Dstates (D 的 状态 集 )、 生 成 D 的 状态 转换 表 Dtran。Dstates 
中 的 状态 是 位 置 集 ， 初 始 情况 下 ， 每 一 个 状态 都 是 “未 标记 的 ”， 只 有 我 们 开始 考虑 其 出 边 时 ， 
这 个 状态 才 变 成 “标记 的 "。D 的 开始 状态 是 firstpos(root)， 接受 状态 是 包含 与 结束 符 # 相 关 的 
位 置 的 状态 。 口 

例 3.23 ”构造 正规 表达 式 (alb)*abb 的 DFA. ((alb)*abb)# 的 语法 树 如 图 3-39a 所 示 。 只 有 
标记 为 * 的 节点 是 可 空 的 。 函 数 firstpos 和 lastpos 如 图 3-41 所 示 followpos 如 图 3-42 所 示 。 

在 图 3-41 中 ， 根 节点 的 firstpos 是 {1, 2, 3}， 我 们 令 这 个 集合 为 4， 并 考虑 输入 符号 a。 因 


为 位 置 1 和 3 与 a HK, MARTIS B= followpos(\) Ufollowpos(3) = {1,2,3,4}。 因 为 这 个 集合 没 
有 出 现 过 ， 所 以 令 Dtran[A, a] := Bo 





初始 时 ，Dstates 中 惟一 未 标记 的 节点 是 firstpos(root), root 是 (7)# 语法 树 的 根 节点 ; 
while Dstates 中 存在 一 个 未 标记 的 状态 TT do begin 
标记 T; 


for 每 个 输入 符号 a do begin 
令 U 是 followpos(p) 中 的 位 置 的 集合 ，p 是 7 中 的 某 个 位 置 ， 位 置 p 的 符号 为 a; 


证 局 非 空 而 且 不 在 Dstates 中 then 


将 上 U 作 为 一 个 未 标记 的 状态 加 入 到 Dstates 中 ; 
Dtran [T, a) := U 





图 3-44 DFA 的 构造 


当 考 虑 输入 符号 ON, HA 中 只 有 2 与 b 相关 ， 所 以 我 们 必须 考虑 集合 followpos (2) = {1, 
2, 3}。 由 于 这 个 集合 已 经 出 现 过 ( 即 集 合 4)， 所 以 它 不 再 加 入 到 Dstates 中 ,但 需 增加 转换 
Diran [A, b] := Ao 

然后 继续 处 理 B= {1, 2, 3, 4}。 我 们 最 后 得 到 的 状态 和 转换 与 图 3-39b 所 示 的 一 致 。 口 
3.9.3 最 小 化 DFA 的 状态 数 

理论 上 的 一 个 重要 结论 是 : 每 一 个 正规 集 都 可 以 由 一 个 状态 数 最 少 的 DFA 识别 ， 这 个 
DFA 是 惟一 的 (状态 名 不 同 的 同 构 情况 除外 )。 本 节 介 绍 如 何 把 一 个 DFA 的 状态 数 化 简 到 最 


ps 
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少 ， 而 不 影响 所 接受 的 语言 。 假 定 有 一 个 DFA M, FORA AES, MAAS HED. BPR 
态 对 每 个 输入 符 叶 都 有 转换 。 如 果 不 是 这 样 ， 可 以 引入 一 个 “ 死 状态 ”4d，d 在 所 有 输入 符号 
上 都 转换 到 do WR s 在 符号 a 上 没有 转换 ， 加 上 一 个 在 a 上 从 s 到 4 WHR, 

我 们 说 字符 串 w 区 别 状态 s Alt, 如果 : DFA M 从 状态 s HA, 对 输入 串 w 进行 状态 转换 ， 
最 后 停 在 某 个 接受 状态 ; 从 1 出 发 ， 对 输入 串 w 进行 状态 转换 ， 停 在 一 个 非 接受 状态 ; 反之 亦 
然 。 例 如 ， 空 囊 € 区 别 任 何 接受 状态 和 非 接受 状态 。 在 图 3-29 的 DFA 中 ,输入 bb 区 别 状态 4 
和 B， 因 为 对 输入 bb, A 到 达 非 接受 状态 C， 而 B 对 同样 的 输入 到 达 接 受 状态 Eo 

极 小 化 DFA 的 状态 数 的 算法 是 把 DFA 的 状态 分 成 一 些 不 相交 的 组 ， 同 一 个 组 中 的 状态 都 
是 不 可 区 别 的 ,而 不 同 组 的 状态 则 可 以 由 某 个 输入 串 区 别 。 我们 把 每 个 状态 组 合并 成 一 个 状态 。 
该 算法 先 把 所 有 状态 划分 为 两 个 组 ， 然 后 逐步 将 这 个 划分 精细 化 。 在 一 个 划分 中 ， 如 果 两 个 状 
态 处 于 同一 分 组 则 说 明 它 们 还 没有 被 任何 串 区 别 出 来 ， 反 之 如 果 两 个 状态 处 于 不 同 分 组 则 说 明 
它们 已 经 被 某 个 串 区 别 出 来 。 

初始 划分 包含 两 个 组 : 接受 状态 组 各 非 接 受 状态 组 。 算 法 的 基本 步 又 是 从 当前 划分 中 取 
一 个 状态 组 ， 比 如 4 = {st，92 ，…，% }， 选 定 一 个 输入 符号 a, RE s, e, s 在 a 上 的 转 
换 。 如 果 这 些 转换 所 到 达 的 状态 落 入 当前 划分 的 两 个 或 更 多 不 同 的 状态 组 ， 那 么 4 必须 进 一 
步 划 分 ， 使 得 划分 后 的 每 个 子 集 在 a 上 的 转换 能 落 和 人 当前 划分 的 同一 个 状态 组 中 。 例 如 , 者 s 
和 s; 在 a 上 的 转换 分 别 到 达 和 t,， 并 且 #4 和 在 该 划分 的 不 同 的 组 中 ， 那 么 4 至 少 分 成 两 
个 子 集 ， 一 个 含 ss， 男 一 个 含 so TER, ADA DAES w 区 别 ， 所 以 si A s: 可 以 
H Baw 区 别 。 

在 当前 划分 中 重复 上 述 划 分 组 的 过 程 ， 直 到 没有 任何 一 组 需要 再 分 裂 为 止 。 当 我 们 在 说 明 
为 什么 分 在 不 同 组 中 的 状态 是 可 区 别 的 时 ， 我 们 并 没有 说 明 为 什么 最 终 留 在 一 组 中 的 状态 是 不 
能 由 任何 输入 串 区 别 的 ， 这 个 证 明 留 给 对 这 一 理论 有 兴趣 的 读者 (Hopcroft and Ullman 
[1979] )。 通 过 从 最 终 划 分 的 每 组 取 一 个 状态 、 去 掉 死 状态 和 从 开始 状态 不 可 到 达 的 状态 的 方法 
构造 的 DFA 是 接受 同样 语言 的 状态 数 最 少 的 DFA。 我 们 把 这 个 结论 的 证 明 也 留 给 有 兴趣 的 读 
者 去 完成 。 


算法 3.6 最 小 化 DFA 的 状态 数 。 

mA: DFA M (其 状态 集合 为 5)， 输 入 符号 集 为 >， 转换 函数 为 fj: Sx LS, FRAN 
Soy 接受 状态 集 为 F, 

输出 : 一 个 DFA M'， 它 和 M 接 受 同 样 的 语言 ， 且 状态 数 最 少 。 

方法 : 

1. 构造 具有 两 个 组 的 状态 集合 的 初始 划分 II : 接受 状态 组 严 ， 非 接受 状态 组 5 - FF。 

2. 对 I 采用 图 3-45 所 述 的 过 程 来 构造 新 的 划分 II new 

3. WR w= M, S Mias TI， 再 





执行 步骤 4; BH, STM := Tl, BE for 中 的 每 个 组 CG do begin 
步 又 2 当 且 仅 当 对 任意 输入 符号 4a， 状态 ;和 1 在 a 上 的 转换 
° 到 达 工 的 同一 组 中 的 状态 时 ， 才 把 G 划 分 成 小 
4. 在 划分 Isna 的 每 个 状态 组 中 选 一 组 ， 以 便 G 的 两 个 状态 * 和 ;在 同一 小 组 中 ; 
个 状态 作为 该 组 的 代表 。 这 些 代表 构成 /* 最 坏 情况 下 ， 一 个 状态 就 可 能 成 为 一 个 组 #7 
了 简化 后 的 DFA M 的 状态 。 令 s 是 一 用 所 有 新 形成 的 小 组 集 代替 II 中 的 G; 





个 代表 状态 ， 而 且 假设 : 在 DFA M 中 ， end 
在 输入 a 上 有 从 :到 :的 转换 。 令 1 所 图 3-45 Die 的 构造 
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在 组 的 代表 是 r (r 可 能 就 是 ! )， 那 么 在 M 中 有 一 个 从 s 到 + 的 a 上 的 转换 。 令 包含 so 的 状态 
组 的 代表 是 M 的 开始 状态 ， 并 令 M 的 接受 状态 是 那些 属于 F 集 的 状态 所 在 组 的 代表 。 注 意 ， 
IIama 的 每 个 组 或 者 仅 含 下 中 的 状态 ， 或 者 不 含 F PRERE 

5. 如 果 M 含有 死 状态 ( 即 一 个 对 所 有 输入 符号 都 有 到 自身 的 转换 的 非 接受 状态 d), WA 
M' 中 去 掉 它 ; 删除 从 开始 状态 不 可 到 达 的 状态 ; 取消 从 任何 其 他 状态 到 死 状 态 的 转换 定义 。 O 


例 3.24 ”让 我 们 重新 考虑 图 3-29 中 给 出 的 DFA。 初 始 划 分 包括 两 个 组 : 接受 状态 组 E) 
和 非 接受 状态 组 (4B8CD)。 构 造 Te 时， 图 3-4$ 中 的 算法 首先 考虑 (可 。 因 为 这 个 组 只 包含 一 
个 状态 ， 它 不 能 再 划分 ， 所 以 把 (E) 仍 放 回 Trew 中 。 然 后 ， 算 法 考虑 (4BCD)。 对 于 输入 a, 
这 些 状态 都 转换 到 8B， 因此 分 组 (ABCD) 不 变 ; 但 对 于 输入 b, A, BOM C 都 转换 到 状态 组 
(ABCD) 的 一 个 成 员 ， 而 D 转换 到 另 一 组 的 成 员 E。 于 是 ， 在 ITIwew 中 ， 状 态 组 (ABCD) 必须 分 
裂 成 两 个 新 组 (ABC) 和 (D)。 因 而 Hwew 成 了 (4BO)(D)(E)。 

再 执行 一 遍 图 3-45 中 的 算法 时 ， 在 输入 a 上 仍然 没有 分 裂 ， 但 对 输入 b, (ABC) 还 要 划分 ， 
因为 4 和 C 都 转 到 C, 但 8 转 到 D, 而 C 和 DD 不 在 一 个 组 中 ， 于 是 Taw 的 下 一 个 值 是 (40) 
(B) (DYE)。 

再 执行 一 遍 图 3-45 中 的 算法 时 ， 只 有 (AC ) 有 划分 的 可 能 。 但 是 对 于 输入 a, AC 都 转 
换 到 B, WHA 5， 它 们 都 转换 到 状态 C， 因 而 不 必 再 划分 。 这 次 循环 结束 时 ，II。,= II。 于 
Æ, Wena 是 (4C)(B)(D)(B)。 

如 果 我 们 选择 A 作为 (4C) 的 代表 , 选择 8B、D 和 E 作 
为 其 他 单 状态 组 的 代表 ， 最 后 可 以 得 到 简化 的 自动 机 。 它 的 
转换 表 如 图 3-46 所 示 ， 状 态 A 是 开始 状态 ， 状 态 E 是 惟一 的 
接受 状态 。 

例如 ， 在 这 个 简化 的 自动 机 中 ,状态 E 有 一 个 在 a 上 到 
状态 4 转换 ， 因 为 4 是 C 所 在 组 的 代表 ， 并 且 在 原来 的 自动 , 
机 中 EE 有 一 个 在 b 上 到 C 的 转换 。 类 似 的 变化 也 发 生 在 状态 。 图 3-46 简化 的 PFA 的 转换 才 
A 和 输入 b 相关 的 表 项 上 。 其 余 的 都 是 从 图 3-29 中 复制 过 来 的 。 在 图 3-46 中 没有 死 状 态 ， 并 且 
所 有 的 状态 都 是 从 开始 状态 4 可 到 达 的 。 口 
3.9.4 词法 分 析 器 的 状态 最 小 化 

为 了 对 在 3.7 节 生成 的 DFA 应 用 状态 最 小 化 算法 ， 在 开始 运行 算法 3.6 时 ， 我 们 必须 对 识 
别 不 同 记号 的 状态 进行 分 组 ， 以 得 到 一 个 初始 划分 。 

例 3.25 在 图 3-37 的 DFA 中 ， 初 始 划分 可 以 将 0137 和 7 分 为 一 组 ， 因 为 它们 都 没有 可 以 识 
别 的 记号 ; 8 和 58 可 以 分 为 一 组 ， 它 们 识别 a*b*， 其 他 的 状态 自己 分 为 一 组 。 我 们 立即 可 以 发 
现 0137 和 7 应 该 属于 不 同 的 组 ， 因 为 当 输 入 为 a 时 它们 进入 了 不 同 的 组 。 同 样 ，8 和 58 也 不 属于 
一 个 组 ， 因 为 当 输 入 b 时 ,它们 将 转换 到 不 同 的 组 。 因 此 图 3-37 所 示 的 DFA 是 具有 相同 功能 
的 所 有 DFA 中 状态 数 最 少 的 。 口 
3.9.5 表 压 缩 方法 

正如 前 面 指出 的 ， 可 以 有 多 种 方法 来 实现 有 穷 自动 机 的 状态 转换 函数 。 因 为 词法 分 析 是 编 
译 器 中 惟一 的 逐个 处 理 输入 字符 流 的 过 程 ， 所 以 它 占 用 了 编译 器 的 可 观 的 时 间 。 因 此 词法 分 析 
器 需要 最 小 化 它 对 每 一 个 输入 字符 所 执行 的 操作 个 数 。 如 果 用 DEFA 来 实现 词法 分 析 器 ， 则 需要 
对 状态 转换 函数 进行 有 效 的 表示 。 由 状态 和 字符 索引 的 二 维 数组 可 以 提供 最 快 的 访问 速度 ,但 
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它 占用 了 大 量 的 空间 ( 比如 ， 由 128 个 字符 构成 的 几 百 个 状态 )。 一 个 高 度 压缩 但 速度 相对 较 慢 
的 方案 是 使 用 一 个 链表 来 存储 每 个 状态 的 出 边 所 表示 的 转换 。 在 链表 的 最 后 存放 一 个 默认 的 转 
换 。 这 个 默认 的 转换 应 该 是 最 经 常用 到 的 转换 。 

这 里 介绍 一 个 更 精妙 的 实现 ， 它 既 有 数组 表示 法 访问 速度 快 的 优点 ， 又 有 链表 结构 占用 空 
间 小 的 优点 。 我 们 使 用 图 3-47 所 示 的 由 4 个 数组 组 成 的 数据 结构 ， 这 些 数 组 由 状态 做 索引 。。 
base 数组 用 于 决定 存储 在 next 和 check 数组 中 的 与 每 个 状态 相关 的 表 项 的 基 位 置 。default 数 
组 用 于 确定 当前 基 位 置 无 效 情况 下 可 选 的 基 位 置 。 


default base next check 


mr EE . 


图 3-47 表示 状态 表 的 数据 结构 


为 了 计算 状态 s 在 遇 到 字符 a 后 要 进入 的 状态 nextstate (5s, a)， 我 们 首先 查看 next 和 check 
这 对 数组 。 特 别 地 ， 要 从 这 两 个 数组 中 找到 对 应 于 状态 s 的 表 项 所 在 位 置 1= base[sl+a， 其 中 
a 可 以 看 成 整数 。 如 果 check = s， 我 们 取 next (NW s 在 输入 a 上 的 下 一 个 状态 o WMR 
check[I]|#s, Wg = default[s]， 然 后 用 q RA s 并 递归 地 重复 整个 过 程 。 该 过 程 描述 如 下 : 
procedure nextstate(s, a); 
if check [base[s|+a]} = s then 
return next (base [s]+a] 
else 
return nextstate (default {s ], a) 









































图 3-47 所 示 的 结构 利用 状态 的 相似 性 来 缩短 next 和 check 数组 的 长 度 。 例 如 ，s 状态 的 默 
认 状 态 q 说 明 我 们 处 于 “正在 处 理 某 标识 符 ” 的 状态 中 ， 如 图 3-13 中 的 状态 10。s 是 遇 到 关键 
字 then 的 前 缀 th 以 及 某 个 标识 符 的 前 缀 时 进入 的 状态 。 当 输入 字符 e 后 ， 我 们 必须 进入 一 个 
特别 的 状态 来 记录 我 们 看 到 了 the， 否则 s 的 动作 和 状态 g 的 动作 相同 。 因 此 ， 我 们 将 check 
[base[s]+e] 的 值 置 为 s， 将 next[base[s]+e] 的 值 置 为 标识 the MARA. 

我 们 可 能 无 法 选择 base 值 使 得 next-check 中 不 存在 未 被 使 用 的 项 。 经 验 表明 ， 采 用 下 述 
简单 的 策略 就 可 以 得 到 相当 好 的 效果 : 将 base 设置 为 使 得 新 插 和 人 的 特殊 表 项 不 会 与 存在 的 表 
项 发 生 冲 突 的 最 小 数 。 与 采用 最 小 可 能 值 相 比 ， 上 述 策略 占用 的 空间 只 多 了 一 点 点 。 

如 果 DFA 有 每 个 状态 上 的 所 有 人 边 都 有 相同 的 标号 a 这 样 的 性 质 ， 我 们 可 以 把 check 缩短 
到 一 个 由 状态 索引 的 数组 中 。 为 了 实现 这 个 方案 ， 我 们 令 checkit = a 并 用 

if check [next [base [s ]+a]] = a then 


来 替换 过 程 nextstate 中 第 二 行 的 测试 语句 。 





日 实际 上 当 状 态 s 加 入 时 ,应 该 有 由 ;索引 的 另外 一 个 数组 ， 给 出 匹配 上 的 模式 ， 如 果 有 的 话 。 这 个 信息 是 在 
由 NFA 构造 DFA 状态 s 时 获得 的 。 
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下 列 各 语言 的 输入 字母 表 是 什么 ? 
a) Pascal 
b) C 
c) Fortran 77 
d) Ada 
e) Lisp 
练习 3.1 中 的 各 种 语言 对 空格 的 使 用 有 什么 约定 ? 
识别 下 面 的 各 段 程序 中 构成 记号 的 词素 ， 并 给 出 每 个 记号 的 合理 的 属性 值 : 
a) Pascal 程 序 : 
function max ( i, j : integer ) : integer ; 
{返回 整数 i 种 j 的 最 大 者 } 
begin 
if i > j then max := i 


else max := j 
end; 


b) CHEF 
int max ( i, j ) int i, j; 
/* 返回 整数 1 和 3 的 最 大 者 «7 
{ 
return i>j?i:3; 
} 
c) Fortran 77 程 序 : 


FUNCTION MAK ( I, J ) 
C ”返回 整数 I 和 J 的 最 大 者 
IF (I .GT. J) THEN 


使 用 3.2 节 中 描述 的 带 有 “标志 ”的 输入 缓冲 模式 ， 编 写 3.4 节 中 的 nextchar ( ) 函数 
的 程序 。 

在 一 个 长 度 为 n 的 字符 串 中 ,分别 有 多 少 个 前 级 、 后 级 、 子 串 、 真 前 级 和 子 序列 ? 
试 描述 下 列 正规 表达 式 所 表示 的 语言 : 

a) 0(011)*0 

b) ((€ 10)1*)* 

c) (O11) *0(011)(Ol1) 

d) 0*10*10*10* 

e) (00111)*((01110)(00111)*(01110)(00111)*)* 

试 写 出 下 列 语言 的 正规 定义 : 

a) 包含 5 个 元 音 的 所 有 字母 串 ， 其 中 元 音 按 顺 序 出 现 。 

b) 按 词典 递增 序 排列 的 所 有 字母 串 。 
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c) 处 于 /* 和 */ 之 间 的 串 构成 的 注解 ， 注 解 中 间 没 有 * /除非 它们 出 现在 双 引 号 中 。 
*d) 所 有 没有 重复 数字 的 数字 串 。 

e) 所 有 最 多 只 有 一 个 重复 数字 的 数字 串 。 

f) 由 偶数 个 0 和 奇数 个 ] 构 成 的 所 有 0 和 1 组 成 的 串 。 

g ) 国际 象棋 的 步 法 集合 ， 如 p-k4 或 kbp x qn. 

h) 所 有 不 含 子 串 011 的 0 和 1 组 成 的 串 。 

i) 所 有 不 含 子 序 列 011 的 0 和 1 组 成 的 串 。 





3.8 说 明 练 习 3.1 中 的 各 种 语言 的 数值 常数 的 词法 形式 。 
3.9 说 明 练 习 3.1 中 的 各 种 语言 的 标识 符 和 关键 字 的 词法 形式 。 
3.10 图 3-48 按 照 优 先 级 降序 的 方式 列 出 














、 ` oe 表达 式 子 
了 Lex 允许 的 正规 表达 式 。 在 这 人 任何 非 运算 符 字符 c a 
RH, o 表示 任意 的 字符 ,+ 表示 一 \c red \* 
个 正规 表达 式 ， s 表示 一 个 字符 串 。 "a" 除 换行 以 外 的 任何 字符 a eb 
a) 如 果 下 述 操作 符 用 做 要 匹配 的 < 行 的 开始 “abc 
字符 ， 它 们 的 特殊 意义 必须 被 $ BIEN abes 
[s] 中 的 任何 字符 [abe] 
RÉ: A 不 在 s 中 的 任何 字符 [“abe] 
3 零 个 或 多 个 r 
Nm es Cbee ? Cb 7 re 一 个 或 多 个 r ar 
r+ 零 个 或 一 个 r + 
使 用 两 种 引号 方式 就 可 以 实现 这 r? 7 重复 出 现 (出 现 次 数 介 于 m 和 aP 
_. 、 tot r{m,n} 之 间 ) af1， 
点 。 表 达 式 "st EFRR oe , r 
AS, 假设 s PRA" 出 现 。 例 ry tory ry BR re aib 
" " , r (aib) 
fn, "+s" EFRR **。 我 们 后 面 跟 有 rz 时 的 ri abc/123 
同样 可 以 用 表达 式 \*\* 匹配 这 





个 字符 串 。 注 意 没 有 用 引号 引起 图 3-48 Lex 正 规 表 达 式 
来 的 * 表示 克 林 闭 包 操作 符 。 写 出 匹配 字符 串 人 \ 的 Lex 正规 表达 式 。 

b) 在 Lex 中 ， 补 字符 类 是 以 符号 ^ 开始 的 字符 类 。 某 字符 类 的 补 字符 类 匹配 所 有 不 在 
该 字符 类 中 的 字符 。 因 此 ，[^a] 匹配 不 是 a 的 所 有 字符 ，[^a-za-z] 匹配 所 有 不 
是 大 小 写字 母 的 字符 等 等 。 试 证 明 : 对 于 每 个 具有 补 字符 类 的 正规 表达 式 ， 都 存 
在 一 个 等 价 的 不 含 补 字符 类 定义 的 正规 表达 式 。 

c) 正规 表达 式 r{m, n} 匹配 模式 7+ 的 m 到 nn 次 出 现 。 例如，a{1,5} 匹 配 a 的 一 到 五 
次 出 现 。 试 证 明 : 对 于 每 一 个 包含 重复 操作 符 的 正规 表达 式 ， 都 存在 一 个 等 价 的 
不 包含 重复 操作 符 的 正规 表达 式 。 

d) 操作 符 ^ 匹配 一 行 的 最 左 端 。^ 和 表示 补 操 作 的 操作 符 是 同一 个 符号 ， 但 是 的 上 
下 文 能 够 确定 它 的 惟一 含义 。 操 作 符 $ 匹配 一 行 的 最 右 端 。 例 如 ，^ [^aeiou]*$ 
匹配 任何 不 包含 小 写 元 音字 符 的 行 。 对 于 每 个 包括 ^ 和 $ 操作 符 的 正规 表达 式 ， 
是 否 存在 一 个 等 价 的 不 包含 这 些 操作 符 的 正规 表达 式 ? 


3.11 编写 一 个 Lex 程序 ,该 程序 复制 一 个 文件 ， 并 将 每 一 个 非 空 的 空白 符 序列 用 一 个 空 


格 来 代替 。 


3.12 编写 一 个 Lex 程序 ， 该 程序 复制 一 个 Fortran 程序 ， 并 用 REAL 替换 DOUBLE 


PRECISION。 


3.13 使 用 在 练习 3.9 中 你 对 Fortran 77 关 键 字 和 标识 符 的 描述 来 识别 下 列 语句 的 记号 : 
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3.14 


3.15 
3.16 


3.17 


3.18 


3.19 


3.20 


3.21 
3.22 


3.23 





IF(I) = TOKEN 
IF(I) ASSIGNSTOKEN 
IF(I) 10,20,30 
IF(I) GOTO15 

IF(I) THEN 


可 以 用 Lex 写 出 你 对 关键 字 和 标识 符 的 描述 吗 ? 
在 UNIX 系 统 中 ，shell 命令 sh 在 文件 名 表达 式 中 使 用 图 3-49 所 示 的 操作 符 来 表达 文 
件 名 的 集合 。 例 如 ， 文 件 名 表达 = 
式 *.o 匹配 所 有 以 .o 结 束 的 文 












His A V 
件 名 ， sort.? 匹配 所 有 形 如 字符 c 本 身 V 
sort. chi Sct, 其 中 c 可 以 是 任 任何 串 *.o 
何 字符 。 字 符 类 可 以 缩写 为 [a- ? 任何 字符 sort1.? 
z] 。 试 问 如 何 使 用 正规 表达 式 中 的 任 何 字符 | sort tose] 
来 表示 shell 文件 名 表达 式 。 图 3-49 程序 sh 中 的 文件 名 表达 式 


修改 算法 3.1， 使 之 能 查找 输入 串 中 被 DFA 接 受 的 最 大 前 缀 。 

用 算法 3.3 为 下 列 正规 表达 式 构造 非 确定 的 有 穷 自 动机 ， 并 给 出 它们 处 理 输入 串 
ababbab 的 状态 转换 序列 : 

a) (alb)* 

b) (a*Ib*)* 

c) ((€ la)b*)* 

d) (alb)*abb(alb)* 

用 算法 3.2 把 练习 3.16 中 的 NFA 转换 成 DEFA。 给 出 它们 处 理 输入 串 ababbab 的 状态 
转换 序列 。 

使 用 算法 3.5 为 练习 3.16 中 的 正规 表达 式 构造 DFA, 并 与 练习 3.17 生 成 的 DFA 的 大 小 
进行 比较 。 

由 图 3-10 给 出 的 记号 的 状态 转换 图 构造 DFA。 

扩展 图 3-40 中 的 表 使 其 包括 正规 表达 式 操作 符 ?和 * 。 

使 用 算法 3.6 最 小 化 练习 3.18 生 成 的 DFA 的 状态 。 

我 们 可 以 证 明 : 如 果 两 个 正规 表达 式 的 最 少 状态 DFA 除 状 态 名 以 外 完全 相同 ， 则 这 
两 个 正规 表达 式 等 价 性 。 使 用 这 种 技术 ,证明 下 面 的 正规 表达 式 是 等 价 的 。 

a) (alb)* 

b) (a*lb*)* 

c) ((€ la)b*)* 

为 下 列 的 正规 表达 式 构造 最 少 状态 DFA 

a) (alb)*a (alb) 

b) (alb)*a (alb) (alb) 

c) (alb)*a (alb) (alb) (alb) 


** d) 证 明正 规 表 达 式 (alb)*a (alb) (alb) … (alb) (共有 nn-1 个 (alb) ) 对 应 的 任何 一 个 
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DFA 至 少 有 2 个 状态 。 
为 练习 3.19 的 状态 转换 表 构 造 类 似 于 图 3-47 的 表示 。 选 出 默认 状态 并 使 用 下 面 两 种 
方法 构造 next 数组 ， 并 比较 使 用 的 空间 量 。 


100 #3 # 





a) 以 最 紧密 的 状态 集 ( 与 它们 的 默认 状态 集 有 着 最 多 不 同 表 项 的 状态 集 ) 开始 ， 将 
这 些 状 态 的 表 项 放 到 next 数组 中 。 
b) 以 随机 的 次 序 将 状态 的 表 项 放 到 next 数组 中 。 

3.25 3.9 节 介绍 的 表 压 缩 策略 的 一 个 变形 可 以 通过 为 每 个 状态 分 配 一 个 固定 默认 位 置 来 避 
免 递归 过 程 nexistate。 采 用 这 种 非 递归 技术 为 练习 3.19 的 状态 转换 表 构 造 类 似 于 图 3- 
47 的 表示 ， 并 与 练习 3.24 的 方法 所 用 的 空间 大 小 进行 比较 。 

3.26 bibr bn 是 一 个 模式 字符 串 ， 称 为 关键 字 。 一 个 关键 字 的 rie 是 指 具 有 m+ 1 个 状 
态 的 状态 转换 图 , 该 状态 转换 图 中 每 一 个 状态 对 应 关键 字 的 一 个 前 缀 。 对 于 1 丢 * 去 六， 
在 输入 符号 b; 上 存在 一 个 从 状态 s-1 到 s 的 转换 。 开 始 和 结束 状态 分 别 对 应 于 空 串 和 
完整 的 关键 字 。 关 键 字 ababaa 的 trie 是 : 


O On Om Oas Oms Oa O) 
现在 我 们 为 该 状态 转换 图 的 每 一 个 状态 〈 除 开始 状态 以 外 ) 定义 一 个 失败 函数 fo 设 
状态 s 和 :分别 代表 关键 字 的 前 缀 上 和 v。 当 且 仅 当 v 是 u 的 最 长 真 后 缀 时 定义 f(s) 
=t, LÑ trie 的 失败 函数 f 是 : 


:|L|2|3|4|5|6| 
fs) Lofofif2 [3]. | 


例如 ， 状 态 3 和 状态 1 代表 关键 字 ababaa WAR aba 和 a。f3) = 1， 因 为 a 是 aba 的 





AEA /+ Gb bn 的 失败 函数 4 / 
my 、 * 计算 bp…bn 的 失 * 
a) 为 关键 字 abababaab 构造 t:= 0; f (1) := 0; 
一 个 失败 了 肾 数 。 for s := | to m—1 do begin 


while £ > 0 and b,,, br dot:= f(t); 
if b+ = 5,4, then begin / := ¢+1; f(s +1) := 1 end; 
else f(s +1) := 0 


* b) 如 果 trie 的 状态 是 0，1， 
，m，0 是 开始 状态 。 证 
明 : 图 3-50 中 的 算法 可 以 end 
正确 地 计算 失败 函数 。 
* c) 证 明 : 在 图 3-50 所 示 的 算 





图 3-50 计算 练习 3.26 中 失败 函数 的 算法 


法 的 整个 执行 中 ， 内 层 循 
环 的 赋值 语句 上 := f(t) 
至 多 执行 m 次 。 
* d) 证 明 ; 该 算法 的 时 间 复 杂 
性 是 0 (m)。 
3.27 图 3-51 中 的 算法 KMP 使 用 练 
习 3.26 中 构造 的 失败 函数 /来 
确定 关键 字 bib, 是 否 是 目 


1% Oy On 包含 子 串 己 bs 四 ? #/ 
s:= 0; 
for i := 1 to n do begin 
while s > O and a; £ b,,,; dos := f(s); 


if a; = b,,, then s := s+1 
if s = m then return “yes” 
end; 
return “no” 





图 3-51 算法 KMP 


标 字 符 串 a1…as 的 子囊 。b1…bn 的 trie 中 状态 的 编号 为 0 到 mm， 如 练习 3.26(b) 所 述 。 


a) 应 用 算法 KMP 来 判断 ababaa 是 否 是 abababaab 的 子 串 。 
*b) 证 明 : “4 HAK bie bn 是 arai FB BRE KMP 返回 “yes”; 
* c) 证明: 算法 KMP 的 时 间 复 杂 性 是 O (m+n; 
* d) 给 定 关键 字 y, EH: 利用 失败 肾 数 可 以 在 Odyj) 时 间 内 创建 一 个 具有 lyl+1 个 状态 
的 DFA， 这 个 DFA 识 别 正规 表达 式 .*y.* ， 其 中 “.” 表 示 任 意 的 输入 字符 。 
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** 3.28 定义 字符 串 s 的 周期 为 一 个 整数 p 使 得 对 于 某 个 上 20, s 可 以 表示 成 (uu, HP 
luvl = p， 且 vwv 不 是 空 串 。 例 如 ，2 和 4 是 字符 串 abababa 的 周期 。 
a) 证 明 : 当 且 仅 当 对 某 些 长 度 为 p 的 字符 串 1 Mu 有 st=us hi, p BAB s 的 
周期 。 
b) 证 明 : WER p 和 gq 是 字符 串 s 的 周期 而 且 p +g Sisi + gcd (p, 9)， 则 gcd(p, q) Hs 
的 周期 其 中 gcd(p, q) 是 p 和 gq 的 最 大 公约 数 。 
c) 设 sp (s;) 是 字符 串 s 的 长 度 为 i 的 前 缀 的 最 小 周期 。 证 明 : 失败 函数 /具有 如 下 
性 质 : fO) =j -sp (sj 1)。 
* 3.29 SFB s 的 最 短 重 复 前 组 是 满足 下 列 条 件 的 * 的 最 短 前 缀 un: SHRP kE, s= wt。 
例如 ，ab 是 abababab 的 最 短 重复 前 级， 而 aba 是 aba 的 最 短 重 复 前 缀 。 试 构造 一 
个 算法 ,在 OUsh 时 间 内 找 出 字符 串 s 的 最 短 重复 前 级 。 提 示 : 使 用 练习 3.26 中 的 失 
败 函数 。 
3.30 Fibonacci 字符 串 定义 如 下 : 
sı=b 
s=a 
Sk = Sk-1Sk-2， k> 2o 
例如 ，s3=ab, sy=aba, ss=abaab 
a) 5 的 长 度 是 多 少 ? 
** b) s, 的 最 小 周期 是 多 少 ? 
c) PAE ss 的 失败 函数 。 
* d 使 用 归纳 法 证 明 ，s, 的 失败 函数 可 以 用 f0) =j-lsel 表示， 其 中 上 满足 : 对 于 1 <j 
<lssl， 有 Isl Sj + 1<lsuilo 
e) 应 用 算法 KMP 判断 % 是 否 是 目标 串 s; 的 子 串 。 
H 构造 正规 表达 式 .*56.* 的 DFA。 
** 9) 在 算法 KMP 中 ， 判 断 % 是 目标 串 sk 的 子 串 时 失败 函数 被 执行 的 最 大 次 数 是 多 
少 ? 
3.31 按照 下 面 的 方法 ,我 们 可 以 将 练习 3.26 中 trie 和 失败 函数 的 概念 从 一 个 关键 字 扩展 
到 一 个 关键 字 集 合 上 。trie 中 的 每 个 状态 对 应 一 个 或 多 个 关键 字 的 前 缀 。 开 始 状态 对 
应 一 个 空 字符 串 ， 与 一 个 完整 的 关 
键 字 对 应 的 状态 是 终止 状态 。 在 计 
算 失败 函数 时 ， 可 能 会 添加 附加 的 
终止 状态 。 关 键 字 集合 {he，she， 
his，hers)} 的 状态 转换 图 如 图 
3-52 所 示 。 
对 于 trie ， 我 们 定义 转换 函数 g 是 
一 个 满足 下 列 条 件 的 从 二 元 组 ( 状态， 符号 ) 到 状态 的 映射 : 如 果 状 态 * 对 应 某 个 关 
键 字 的 前 级 六 8 对 应 前 缀 by bby, 则 g (s, bj) = s's 如 果 So 是 开始 状态 ， 
我 们 定义 g(so, a) = so, a 是 任意 输入 符号 但 不 是 任何 关键 字 的 初始 符号 。 对 于 任何 没 
有 定义 的 转换 ， 令 g(s, a) = failo 注意 初始 状态 没有 jail 转换 。 





图 3-52 关键 字 {he , she, his, hers } 的 trie 





slej? Jeo 
fs)  folototri2totstots] 


假设 状态 s 和 + 表示 某 个 关键 字 的 前 级 uw 和 v。 当 目 仅 当 v 是 u 的 最 长 真 后 级 同时 还 
是 某 个 关键 字 的 真 前 缀 时 ， 我 们 定义 f(s) = t。 上 面 状 态 转换 图 的 失败 函数 是 : 

例如 ， 状 态 4 和 状态 1 表示 前 缀 sh 和 n。f (4) = 1， 因 为 h 是 sh 的 最 长 真 后 级 且 nh 是 某 个 
关键 字 的 前 组 。 使 用 图 3-53 所 示 的 


算法 可 以 按 深度 递增 的 方式 计算 Owe 

， (s) := Sọ; 

状态 的 失败 函数 fo 状态 的 深度 是 for 每 个 深度 4 1 do 

它 到 开始 状态 的 距离 。 for FW ets a) = 5 的 深度 为 d 的 状 
注意 ， 由 于 对 于 任何 字符 C, ES E s4 和 字符 a do begin 

g (so0，c) 关 faif， 所 以 图 3-53 中 的 s := /G0); 


while g(s, a) = fail do s := f(s); 
while 循环 一 定 会 结束 。 在 设置 f (8) := g(s, a); 
f(s) 为 gt. ala, WR g (t, a) 是 
终止 状态 ， 我 们 还 要 令 s 为 终止 
状态 ， 如 果 它 还 不 是 的 话 。 
a) 构造 关键 字 集 合 {aaa，abaaa，ababaaa} 的 失败 函数 。 
* b) 证 明 图 3-53 的 算法 能 够 正确 计算 失败 函数 。 
* c) 证 明 计 算 失败 函数 的 时 间 正 比 于 关键 字 长 度 之 和 。 


3.32 给 定 关键 字 集 合 K= {y y e, h Oo 是 状态 转换 函数 ，f 是 练习 3.31 中 的 失 





图 3-53 计算 关键 字 的 trie 的 失败 函数 的 算法 





败 函 数 。 图 3-54 所 示 的 算法 AC 

使 用 g 和 了 来 判断 目标 串 artan 

是 否 包 含 是 关键 字 的 子 串 。 状 态 

s EK 的 状态 转换 图 的 开始 状态 ， 

F 是 终止 状态 集合 。 

a) 使 用 练习 3.31 中 的 转换 函数 和 
失败 函数 ， 对 输入 串 ushers 
应 用 算法 AC。 


/# 0I…an 包 含 一 个 为 关键 字 的 子 串 吗 ? #7 
S := Sp; 
for i := 1 to n do begin 

while g(s, a;) = fail do s = f(s); 


s:= g(s, ai) 

if s is in F then return *‘yes” 
end; 
return “no” 





图 3-54 AC 算法 


*b) 证 明 ; 当 且 仅 当 某 个 关键 字 y; 是 a1…as 的 子 串 时 ,算法 AC 返 回 “yes”。 
* c) TEAR; 算法 AC 处 理 一 个 长 度 为 n 的 字符 串 时 至 多 做 出 了 2n 次 状态 转换 。 


*d) WEAR: 利用 关键 字 集 合 {yr y2,… 


, Ye} 的 状态 转换 图 和 失败 函数 , 可 以 在 线性 时 间 


k 
内 构造 出 正规 表达 式 *Cyilyal--lye}.* AY DFA, AK DPA 至 多 有 > 1y1+1 个 状态 。 
i=l 


e) 修改 算法 AC, 使 其 打印 出 在 目标 串 中 发 现 的 每 个 关键 字 。 

3.33 使 用 练习 3.32 中 的 算法 为 Pascal 中 的 关键 字 构 造 一 个 词法 分 析 器 。 

3.34 两 个 字符 串 x Aly 的 最 长 公共 子 序列 lesa, y) 定义 为 既是 x 的 子 序列 又 是 y 的 子 序列 
并 且 是 其 中 最 长 的 子 序列 。 例 如 ，tie 是 stripeG 和 tiger 的 最 长 公共 于 序列 。x 
My 的 距离 d (x+，y) 定义 为 把 x 变换 成 y 所 和 需 插 入 和 删除 的 最 少 次 数 。 例 如 ,4d 


(striped, tiger)=6. 


a) 证 明 : 对 于 任意 两 个 串 x 和 y， 它 们 的 距离 和 它们 的 最 长 公共 子 序列 的 长 度 之 间 
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HARE d(x, y) = xltlyl-(2*llcs(x，y)D)o 
*b) 编写 一 个 算法 ， 其 输入 为 两 个 串 x 和 >， 输出 为 x 和 y 的 一 个 最 长 公共 子 序列 。 
3.35 两 个 串 x 和 y 的 编辑 距离 e (x, y) 定义 为 把 x 变换 成 y 所 需 的 字符 插入 、 删 除 和 替换 的 
最 少 次 数 。 邻 x=al…am，y= bi… bn, e(x, y) 可 以 使 用 踪 离 数组 d [0…m，0…n] 通 
过 动态 规划 算法 来 计算 ， 其 中 
d li, j] 是 ai…a; 和 bib; 之 间 的 fori:= Otom dodli. 0) := i; 


for j:= 1 to n do dl0, j):= j; 

编辑 距离 。 图 3-55 中 的 算法 用 来 for i := ) to m do 
、 for j := | to n do 
计算 4 JERE, R repl 是 字符 pu. j} := min(dli—1, j~1] + repl(a;, b,), 
替换 的 代价 : 若 ai=b;， 则 repl dli-l, jf) +1, 
(ai, bj)=0, BMA. dli, j-N+ 1) 

编辑 距离 和 练习 3.34 中 的 距离 
» pen Z aa 图 3-55 计算 两 个 串 之 间 编 辑 距离 的 算法 


b) 使 用 图 3-55 中 的 算法 计算 ababb 和 babaaa 之 间 的 编辑 距离 。 
c) 构造 一 个 算法 ， 显示 出 把 x 变换 成 y 所 需 的 最 小 编辑 变换 序列 。 

3.36 试 给 出 一 个 算法 ， 其 输入 为 串 x 和 正规 表达 式 r,， 输 出 为 L(r) 中 的 串 y， 使 得 a (x， 
妨 尽 可 能 小 ， 其 中 4 是 练习 3.34 中 定义 的 距离 函数 。 


编程 练习 


P3.1 用 C 语 言 或 Pascal 语 言 编写 一 个 图 3-10 中 记号 的 词法 分 析 器 。 

P3.2 写 出 Pascal 记号 的 说 明 ， 并 根据 该 说 明 构 造 状态 转换 图 。 再 利用 该 状态 转换 图 ， 使 
用 Pascal 或 C 语 言 实现 一 个 Pascal 的 词法 分 析 器 。 

P3.3 完成 图 3-18 中 的 Lex 程 序 ， 比 较 由 Lex 程序 生成 的 词法 分 析 器 和 练习 P3.1 生 成 的 词法 
分 析 器 的 大 小 和 速度 。 

P3.4 Bik Pascal 记号 的 Lex 说 明 ， 使 用 Lex 编译 器 构造 一 个 Pascal 的 词法 分 析 器 。 

P3.5 编写 一 个 程序 ， 输 入 是 一 个 正规 表达 式 和 一 个 文件 名， 输出 是 文件 中 所 有 包含 由 正 
规 表 达 式 表示 的 子 串 的 行 。 

P3.6 为 图 3-18 中 的 Lex 程序 添加 错误 恢复 机 制 ， 使 其 在 出 现 一 个 错误 后 还 可 以 继续 查找 
记号 。 

P3.7 从 练习 3.18 中 构造 的 DFA 编写 一 个 词法 分 析 器 程序 ， 并 和 练习 P3.1、P3.3 中 构造 的 
词法 分 析 器 进行 比较 。 

P3.8 构造 一 个 能 够 从 说 明 记 号 集合 的 正规 表达 式 生 成 词法 分 析 器 的 工具 。 


参考 文献 注释 


一 个 语言 在 词法 方面 的 限制 通常 是 由 创建 该 语言 的 环境 决定 的 。 当 Fortran 在 1954 年 诞生 时 
穿孔 卡片 是 主要 的 输入 介质 。Fortran 语 言 忽略 空格 的 部 分 原因 是 因为 当时 打 孔 员 需 要 从 手写 的 
笔记 来 准备 卡片 ， 经 常数 错 空格 ( Backus[1981]). Algol 58 语 言 把 硬件 表示 和 参考 语言 分 离 是 
在 一 个 设计 委员 的 坚持 下 获得 的 ;“ 不 ， 我 永远 不 会 用 句号 表示 小 数 点 ”( Wegstein[1981] )。 

Knuth[1973a] 提 出 了 一 些 输 入 缓冲 技术 。Feldman[1979b] 讨 论 了 Fortran 77 中 记号 识别 的 实 
际 困难 。 i 

正规 表达 式 首先 由 Kleene[1956] 开 始 研究 ，Kleene 对 于 可 以 由 McCulloch and Pitts[1943] 提 
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出 的 描述 神经 活动 的 有 穷 自 动机 模型 所 能 表示 的 事件 感 兴趣 。Hufftmanf19541] 和 Moore[1956] 最 
早 研 究 有 穷 自 动机 的 最 小 化 问题 。 确 定 自 动机 和 不 确定 自动 机 在 识别 语言 能 力 上 的 等 价 性 是 由 
Rabin and Scott[1959] 证 明 的 。McNaughton and Yamada[1960] 描 述 了 一 个 直接 从 正规 表达 式 构 
造 DFA 的 算法 。 关 于 正规 表达 式 的 更 多 理论 可 以 在 Hopcroft and Ullman[19791 中 找到 。 

在 实现 编译 器 时 ， 由 正规 表达 式 说 明生 成 词法 分 析 器 的 工具 非常 有 用 ， 这 个 观点 被 广泛 地 
接受 了 。Johnson et al. [1968] 讨 论 了 早期 的 这 种 系统 。 本 章 讨论 的 语言 Lex 是 由 Lesk[1975] 设 计 

157| ”的 , 已 经 应 用 到 UNIX 系 统 中 的 很 多 编译 器 上 。3.9 节 中 的 转换 表 的 压缩 实现 方法 是 由 S. C. Johnson 

提出 的 ， 他 首先 在 Yacc 语 法 生成 器 的 实现 中 使 用 了 这 种 方法 ( Johnson[1975] )。Dencker， 
Dürre and Heuft[1984] 中 对 另 一 种 表 压 缩 方法 进行 了 讨论 和 评价 。 

Tarjan and Yao[1979] 以 及 Fredman ，Koml6s and Szemerédi[1984] 在 理论 上 系统 地 研究 了 转 
换 表 压缩 的 问题 。 基 于 这 些 工作 ，Cormack，Horspool and Kaiserswerth[1985] 提 出 了 一 个 非常 
好 的 散 列 算法 。 

正规 表达 式 和 自动 机 已 经 被 应 用 于 很 多 编译 以 外 的 领域 。 很 多 文本 编辑 器 应 用 正规 表达 式 
进行 上 下 文 搜索 。 例 如 ，Thompsonf1968] 在 文本 编辑 器 QED 的 上 下 文中 描述 了 由 正规 表达 式 构 
造 NFA 的 算法 (算法 3.3 )。 在 UNIX 系 统 中 有 三 个 应 用 正规 表达 式 的 查找 程序 : grep, egrep 
和 fgrep。grep 不 允许 在 正规 表达 式 中 使 用 “并 ”或 括号 进行 分 组 ,但 它 允 许 受 限 的 向 后 引 
用 ， 类 似 于 Snobol。grep 使 用 算法 3.3 和 算法 3.4 来 搜索 它 的 正规 表达 式 模式 。egrep 中 的 正规 
表达 式 与 Lex 中 的 正规 表达 式 相似 ， 只 是 不 包括 循环 和 超前 扫描 。egrep 使 用 3.7 节 提 到 的 “ 情 
性 ”状态 构造 法 生成 DFA， 用 来 搜索 正规 表达 式 模 式 。fgrep 使 用 Aho and Corasick[1975] 中 提 
出 的 算法 匹配 由 关键 字 集 合 组 成 的 模式 ， 该 算法 在 练习 3.31、 练 习 3.32 中 进行 了 讨论 。 
Aho[1980] 分 析 了 这 些 程序 的 相关 性 能 。 

正规 表达 式 在 文本 检索 系统 、 数 据 库 查询 语言 和 文件 处 理 语 言 (如 AWK (Aho, Kerni- 
ghan, and Weinberger[1979] ) ) 中 都 有 着 广泛 的 应 用 。Jarvis[1976] 在 描述 印 制 电路 的 缺陷 时 也 
使 用 了 正规 表达 式 。Cherry[1982] 使 用 练习 3.32 中 的 关键 字 匹 配 算法 查找 手稿 中 的 错误 用 语 。 

练习 3.26、 练 习 3.27 中 的 字符 串 模 式 匹 配 算法 来 自 Knuth Morris and Pratt[1977]。 该 论文 
还 对 字符 串 的 周期 进行 了 讨论 。 另 一 个 有 效 的 字符 串 匹配 算法 是 由 Boyer 和 Moore[1977] 提 出 的 ， 
他 们 证 明了 不 需要 检查 目标 串 中 的 所 有 字符 就 可 以 确定 子 串 匹配 成 功 。 在 字符 串 匹配 中 散 列 法 
也 是 一 种 有 效 的 技术 (Harrison[1971])。 

练习 3.34 提 到 的 最 长 公共 子 序列 的 概念 已 经 用 在 了 UNIX 系 统 的 文件 比较 程序 diff 中 (Hunt 
and Mcliroy[1976])。Hunt and Szymanskif1977] 中 描述 了 一 个 有 效 的 计算 最 长 公共 子 序列 的 实 
用 算法 。Wagner and Fischer[1974] 中 提出 了 计算 练习 3.35 中 的 最 短 编辑 距离 的 算法 。 
Wagner[1974] 给 出 了 练习 3.36 的 解答 。Sankoff and Kruskal[1983] 包 含 了 最 小 距离 识别 方法 的 广 

泛 应 用 ， 从 遗传 序列 的 研究 到 语音 处 理 中 的 问题 。 


第 4 章 语法 分 析 


每 一 种 程序 设计 语言 都 具有 描述 程序 语法 结构 的 规则 。 例 如 ，Pascal 程 序 由 程序 块 组 成 ， 
程序 块 由 语句 组 成 ， 语 句 由 表达 式 组 成 ， 表 达 式 由 记号 组 成 ， 等 等 。 程 序 设 计 语 言 结构 的 语法 
可 以 用 2.2 节 介绍 的 上 下 文 无 关 文 法 或 BNF 范 式 ( Backus-Naur 范 式 ) 表示 法 来 描述 。 文 法 为 程 
序 语言 设计 者 和 编译 器 编写 者 提供 了 很 大 的 便利 : 

“文法 为 程序 设计 语言 提供 了 精确 、 易 懂 的 语法 说 明 。 

。 从 某 类 文法 可 以 自动 构造 一 个 有 效 的 语法 分 析 器 ， 用 来 判断 一 个 源 程序 在 语法 上 是 否 正 

确 。 语 法 分 析 器 的 构造 过 程 能 揭示 出 在 语言 和 编译 器 的 最 初 设计 阶段 未 被 发 现 的 语法 二 

义 性 和 其 他 难以 进行 语法 分 析 的 结构 。 

。 设 计 合 理 的 文法 使 程序 设计 语言 具有 良好 的 结构 。 这 将 有 利于 把 源 程序 翻译 成 正确 的 目 

标 代码 并 有 利于 错误 检测 。 现 在 已 经 有 很 多 把 基于 文法 的 描述 转换 成 工作 程序 的 工具 。 

“语言 经 过 一 段 时 期 的 发 展 ， 可 能 需要 增加 新 的 结构 及 新 的 功能 。 如 果 存 在 基于 该 语言 长 

文法 描述 的 实现 ， 这 些 新 结构 就 能 更 容易 地 加 入 到 语言 中 。 

本 章 将 介绍 编译 器 中 使 用 的 典型 语法 分 析 方 法 。 我 们 首先 介绍 基本 概念 ， 然 后 讨论 适合 于 
手工 实现 的 技术 , 最 后 介绍 自动 生成 工具 中 所 使 用 的 算法 。 由 于 程序 经 常会 出 现 一 些 语 法 错误 ， 
所 以 我 们 扩展 了 这 些 语法 分 析 方 法 ,使 之 能 从 常见 的 错误 中 得 以 恢复 。 


4.1 语法 分 析 器 的 作用 


在 本 书 的 编译 器 模型 中 ， 语 法 分 析 器 接收 词法 分 析 器 提供 的 记号 串 ， 检 查 它们 是 否 能 由 源 
程序 语言 的 文法 产生 ， 如 图 4-1 所 示 。 我 们 希望 语法 分 析 器 能 用 易于 理解 的 方式 提示 语法 错误 
信息 ， 并 能 从 常见 的 错误 中 恢复 过 来 ， 以 便 后 面 的 输入 能 继续 处 理 下 去 。 


中 间 表 示 





图 4-1 语法 分 析 器 在 编译 器 中 的 位 置 


典型 的 文法 的 语法 分 析 器 有 三 类 。 一 类 是 通用 的 语法 分 析 方法 ， 如 Cocke-Younger-Kasami 
算法 和 Earley 算 法 ， 这 些 方法 能 分 析 任 何 文法 〈 参见 参考 文献 注释 )。 然 而 这 些 方法 在 生成 编 
译 器 时 效率 太 低 。 编 译 器 常用 的 是 自 顶 向 下 和 自 底 向 上 的 方法 。 正 如 它们 的 名 字 所 示 ， 自 项 向 
下 语法 分 析 器 沿 着 从 项 〈 根 ) 向 底 OF) 的 方向 建立 分 析 树 ， 而 自 底 向 上 语法 分 析 器 则 沿 着 从 
叶 向 根 的 方向 建立 分 析 树 。 不 论 是 哪 一 种 方法 ， 诸 法 分 析 器 都 是 自 左 向 右 地 扫描 输入 字符 串 ， 
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每 次 读 一 个 符号 。 

最 有 效 的 自 顶 向 下 和 自 底 向 上 分 析 方 法 只 能 处 理 文法 的 一 些 子 类 。 然 而 ， 这 些 子 类 中 的 某 
些 文法 ， 如 LL 文 法 和 LR 文 法 ， 足 以 描述 程序 设计 语言 的 大 部 分 语法 结构 。LL 文 法 的 语法 分 析 
器 常 由 手工 实现 ， 如 2.4 节 中 介绍 的 构造 LL 文 法 的 语法 分 析 器 的 方法 。 大 多 数 LR 文 法 的 语法 分 
析 器 则 常 利用 自动 生成 工具 来 构造 。 

本 章 假设 语法 分 析 器 的 输出 是 对 词法 分 析 器 产生 的 记号 流 的 分 析 树 的 某 种 表示 。 事 实 上 ， 
在 分 析 过 程 中 编译 器 还 可 以 完成 许多 其 他 任务 。 例 如 ， 把 与 各 种 记号 有 关 的 信息 收集 到 符号 表 
中 、 进 行 类 型 检查 和 其 他 一 些 语义 分 析 检 查 、 产 生 如 第 8 章 所 示 的 中 间 代 码 ， 等 等 。 我 们 把 所 
有 这 些 任 务 都 包括 在 图 4-1 的 “前 端的 其 余部 分 ” 框 中 ， 并 在 下 面 的 三 章 中 详细 讨论 它们 。 

本 节 的 剩余 部 分 将 考虑 语法 错误 的 性 质 和 错误 恢复 的 一 般 策 略 。 我 们 在 讨论 各 种 语法 分 析 
方法 时 将 详细 介绍 两 种 错误 恢复 策略 : 一 种 称 为 紧急 方式 恢复 策略 ， 另 一 种 称 为 短语 级 恢复 策 
咯 。 编 译 器 的 编写 者 可 以 自行 实现 每 一 种 策略 ， 我 们 只 是 给 出 一 些 有 关 方 法 的 提示 。 

4.1.1 语法 错误 的 处 理 

如 果 编 译 器 只 处 理 正确 程序 ， 它 的 设计 和 实现 就 可 以 大 大 简化 。 但 是 程序 设计 人 员 经 常会 
编写 出 错误 的 程序 ， 因 此 好 的 编译 器 应 该 能 帮助 程序 员 识 别 和 定位 错误 。 虽 然 错误 经 常 发 生 ， 
但 是 绝 大 多 数 语言 在 设计 时 都 没有 考虑 到 出 错 处 理 。 如 果 我 们 的 口语 也 和 计算 机 语言 一 样 要 求 
语法 的 准确 性 ， 我 们 的 文明 会 大 不 相同 。 大 多 数 程序 设计 语言 的 说 明 都 没有 描述 编译 器 应 该 怎 
样 响应 语法 错误 ， 而 是 把 它 留 给 了 编译 器 的 设计 者 来 处 理 。 因 此 ， 在 设计 编译 器 的 开始 阶段 我 
们 就 应 该 规划 出 错 处 理 策略 ， 这 样 既 可 以 简化 编译 器 的 结构 也 能 改进 它 对 错误 的 响应 能 力 。 

我 们 知道 程序 可 能 包含 不 同 级 别 的 错误 。 下 边 是 一 些 程序 错误 的 示例 ; 

。 词 法 错误 ， 如 标识 符 、 关 键 字 或 操作 符 的 拼写 错误 。 

。 语 法 错误 ， 如 算术 表达 式 的 括号 不 配对 。 

。 语 义 错误 ， 如 操作 符 作用 于 不 相 容 的 操作 数 。 

。 逻 辑 错误 ， 如 无 限 的 递归 调用 。 

源 程 序 的 多 数 错误 诊断 和 恢复 都 集中 在 语法 分 析 阶 段 。 原 因 之 一 是 多 数 错误 都 是 语法 错误 ， 
或 者 当 来 自 词法 分 析 器 的 记号 流 违 背 定义 程序 设计 语言 的 文法 规则 时 才 暴 露出 来 。 另 一 个 原因 
是 现代 语法 分 析 方 法 的 准确 性 使 得 它们 能 非常 有 效 地 检查 出 程序 中 的 语法 错误 。 在 编译 阶段 准 
确 地 诊断 语义 和 逻辑 错误 是 非常 困难 的 。 本 节 将 介绍 几 种 基本 的 语法 错误 恢复 技术 ， 它 们 的 实 
现 技术 将 与 本 章 的 各 种 语法 分 析 方 法 一 起 讨论 。 

语法 分 析 器 中 出 错 处 理 程序 的 基本 目标 是 ; 

。 清 楚 而 准确 地 报告 错误 的 出 现 。 

。 迅 速 地 从 每 个 错误 中 恢复 过 来 ， 以 便 能 继续 检查 后 面 的 错误 。 

。 不 能 过 分 降低 正确 程序 的 处 理 速度 。 

有 效 地 实现 这 些 目标 并 不 是 一 件 容易 的 事 。 

幸好 ， 常 见 的 错误 都 是 简单 错误 ， 用 相对 简单 的 错误 处 理 机 制 就 足以 处 理 这 些 错 误 。 但 是 ， 
在 有 些 情况 下 ， 错 误 的 发 生 远 远 先 于 发 现 它 的 位 置 ， 而 且 很 难 诊断 出 这 种 错误 的 准确 性 质 。 更 
困难 的 是 ， 出 错 处 理 程序 可 能 需要 猜测 程序 员 编程 时 的 意图 。 

有 些 分 析 方法 ， 如 LL 方 法 和 LR 方 法 ， 可 以 尽快 地 检查 出 语法 错误 。 更 准确 地 说 ， 它 们 具 
AARMA (viable-prefix property )， 即 当 它 们 一 旦 发 现 一 个 输入 字符 串 的 前 级 不 是 该 语言 
任何 字符 串 的 前 缀 时 就 能 检查 出 错误 。 
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例 4.1 为 了 鉴别 实践 中 出 现 的 错误 种 类 ， 我 们 来 看 一 下 Ripley and Druseikis [1978] 在 抽样 
检查 学 生 的 Pascal 程 序 时 发 现 的 错误 。 

他 们 发 现 ， 错 误 并 不 经 常 出 现 ，60% 的 被 编译 程序 的 语法 和 语义 都 是 正确 的 。 即 使 有 错误 
出 现 ， 错 误 的 数量 也 相当 少 。80% 的 出 错 语句 只 含 一 个 错误 ， 只 有 13% 的 出 错 语句 含有 两 个 错 
误 。 多 数 错误 都 是 微不足道 的 ，90% 的 错误 是 单个 记号 错 。 

多 数 错误 可 以 简单 地 分 为 以 下 几 类 : 60% 是 标点 符号 错 ，20% 是 操作 符 或 运算 对 象 错 ， 
15% 是 关键 字 错 ， 剩 下 的 5% 是 其 他 类 型 的 错误 。 多 数 标 点 符号 错 都 属于 分 号 的 不 正确 使 用 。 

让 我 们 看 一 个 具体 的 例子 。 下 面 是 一 个 Pascal 程 序 : 





(1) program prmax(input, output); 

(2) var 

(3) x, y: integer; 

(4) function max(i:integer; j:integer) : integer; 
(5) { return maximum of integers i and j } 
(6) begin 

(7) if i > j then max := i 

(8) else max := j 

(9) end; 

(10) begin 

(11) readin (x,y); 

(12) writeln (max(x,y)) 

(13) end. 


一 种 常见 的 标点 错误 是 在 函数 说 明 的 参数 表 中 出 现 的 ， 这 种 错误 是 : 在 应 该 使 用 分 号 的 位 
置 错误 地 使 用 了 逗号 ( 如 在 第 (4) 行 第 一 个 分 号 的 位 置 用 了 逗号 )。 另 一 种 常见 的 错误 是 在 一 行 
的 末尾 忽略 了 必须 写 的 分 号 (如 第 (4) 行 末尾 的 分 号 )。 还 有 一 种 常见 的 错误 是 在 else 出 现 的 前 
一 行 的 末尾 多 加 了 分 号 〈 如 在 第 (7) 行 的 末尾 加 了 分 号 )。 

分 号 错误 普遍 出 现 的 原因 是 不 同 语言 在 分 号 的 用 法 上 有 很 大 的 差别 。 在 Pascal 语 言 中 ， 分 
号 是 语句 的 分 隔 符 ; 在 PL/1 和 C 语 言 中 ， 分 号 则 是 语句 的 结束 符 。 研 究 表明 ， 后 一 种 用 法 较 少 
出 错 (Gannon and Horning [1975] )。 

操作 符 错误 的 典型 例子 是 漏 写 了 := 中 的 冒号 。 关 键 字 拼写 错误 通常 比较 少见 ， 其 典型 的 
例子 是 writeln 漏 写 了 1i。 

多 数 Pascal 编 译 器 都 可 以 毫 无 困难 地 处 理 普通 的 插入 、 删 除 和 修改 错误 。 事 实 上 ， 有 些 
Pascal 编 译 器 可 以 正确 地 编译 带 有 一 个 普通 的 标点 或 操作 符 错误 的 程序 ; 它们 只 是 给 出 一 个 警 
告 信息 ， 并 正确 地 指出 错误 的 结构 。 

然而 ， 另 一 类 常见 的 错误 是 很 难 正 确 修复 的 ， 比 如 漏 写 了 begin 或 end ( 如 在 第 (9) 行 中 漏 
写 )。 多 数 编译 器 都 不 能 修复 这 类 错误 。 o 


出 错 处 理 程序 应 该 怎样 报告 错误 呢 ? 至 少 ， 它 们 应 该 报告 源 程序 的 错误 被 检测 到 的 位 置 ， 
因为 实际 错误 可 能 就 在 它 前 面 几 个 记号 中 。 很 多 编译 器 普遍 采用 的 办 法 是 : 显示 出 错 的 程序 行 ， 
用 指针 指出 检测 到 错误 的 位 置 。 如 果 能 够 知道 实际 错误 可 能 是 什么 ， 编 译 器 还 会 显示 附带 的 诊 
断 信息 ， 如 “此 处 遗漏 了 分 号 ”等 。 

一 旦 检查 出 错误 ,语法 分 析 器 将 如 何 恢复 这 个 错误 呢 ?” 正 如 我 们 将 看 到 的 ， 有 很 多 一 般 性 
的 策略 ,但 没有 哪 种 策略 占 绝对 优势 。 多 数 情 况 下 ， 语 法 分 析 器 在 检测 到 一 个 错误 后 就 放弃 继 
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续 分 析 的 做 法 是 不 妥 的 ， 因 为 继续 处 理 输入 字符 串 可 以 发 现 更 多 的 错误 。 通 常 ， 一 些 语法 分 析 
器 试图 将 自己 恢复 到 某 一 状态 ， 以 便 能 够 继续 分 析 输 入 字符 串 或 正确 地 处 理 出 现 的 错误 。 

不 充分 地 恢复 程序 可 能 会 引起 大 量 令 人 烦恼 的 “ 伪 ” 错 误 的 出 现 ， 这 些 错误 不 是 程序 设 
计 人 员 造 成 的 ， 而 是 由 于 错误 恢复 时 改变 了 语法 分 析 器 的 状态 而 引起 的 。 同 样 ， 语 法 错误 的 
恢复 也 可 能 引起 语义 伪 错 误 ， 这 些 错 误会 在 语义 分 析 或 代码 生成 阶段 被 检查 出 来 。 例 如 ， 错 
误 恢复 时 ， 语 法 分 析 器 可 能 跳 过 某 个 变量 的 声明 ， 如 变量 zap。 以 后 在 表达 式 中 碰 到 变量 zap 
时 ,虽然 语法 上 没有 错 ， 但 由 于 符号 表 中 没有 变量 zap 的 表 项 ， 会 产生 “zap 没 有 定义 ”的 出 
错 信息 。 

编译 器 一 个 保守 的 策略 是 : 如 果 在 输入 流 中 查 到 某 个 错误 ， 并 且 它 离 前 一 个 错误 非常 近 ， 
则 抑制 这 个 错误 信息 的 出 现 ， 即 在 发 现 一 个 语法 错误 后 ， 编 译 器 应 该 在 成 功 地 分 析 几 个 记号 之 
后 才 报 告 下 一 个 错误 信息 。 然 而 ， 在 某 些 情况 下 ， 可 能 会 有 太 多 的 错误 ， 以 至 于 编译 器 无 法 继 
续 进 行 合理 的 处 理 。 试 想 一 下 ，Pascal 编 译 器 对 输入 的 Fortran 程 序 会 如 何 反 应 呢 ? 考虑 到 各 种 
错误 情况 的 出 现 以 及 合理 处 理 ， 错 误 恢 复 的 策略 是 一 个 需要 认真 考虑 的 折衷 。 

正如 前 面 所 提 到 的 ， 有 些 编译 器 试图 猜测 程序 员 编 程 时 的 意图 并 修复 错误 ， 如 PL/C 编 译 
器 ( Conway and Wilcox[1973] )。 除 非 处 理 初学 者 写 的 短程 序 ， 否 则 恢复 大 量 错误 的 过 程 不 可 
能 是 有 效 的 。 事 实 上 ， 随 着 交互 式 计算 以 及 良好 程序 设计 环境 日 趋 重要 ， 错 误 恢复 机 制 将 趋 
于 简单 化 。 

4.1.2 错误 恢复 策略 

诸 法 分 析 器 可 以 采用 的 语法 错误 恢复 策略 有 很 多 种 。 虽 然 没 有 一 种 策略 被 普遍 接受 ， 但 有 
几 种 策略 已 经 得 到 广泛 应 用 。 我 们 将 主要 介绍 下 面 几 种 策略 : 

。 紧 急 方式 恢复 策略 。 

。 短 语 级 恢复 策略 。 

。 出 错 产 生 式 策略 。 

。 全 局 纠正 策略 。 

紧急 方式 恢复 策略 。 紧 急 方式 恢复 是 最 容易 实现 的 方法 ， 适 用 于 多 数 语 法 分 析 方 法 。 当 发 
现 错误 时 ， 语 法 分 析 器 开始 抛弃 输入 记号 ， 每 次 抛弃 一 个 记号 ， 直 到 发 现 某 个 指定 的 同步 记号 
为 止 。 同 步 记 号 通常 是 定 界 符 ， 如 分 号 或 endu， 它 们 在 源 程序 中 的 作用 是 明显 的 。 当 然 ， 编 译 
器 的 设计 者 必须 恰当 地 选择 同步 记号 。 这 种 方法 常常 跳 过 大 量 的 输入 记号 ， 而 不 检查 其 中 是 否 
有 其 他 错误 。 和 下 面 的 几 种 方法 相 比 ， 这 种 方法 比较 简单 ， 不 会 陷入 死 循 环 。 所 以 ， 当 一 个 语 
句 中 出 现 的 错误 数 较 少时 ， 这 种 方法 比较 合适 。 l 

短语 级 恢复 策略 。 发 现 错误 时 ， 语 法 分 析 器 对 剩余 的 输入 字符 串 做 局 部 纠正 ， 即 用 一 个 能 
使 语法 分 析 器 继续 工作 的 字符 串 来 代替 剩余 输入 的 前 级 。 典型 的 局 部 纠正 包括 用 分 号 代替 逗号 、 
删除 多 余 的 分 号 或 插入 遗漏 的 分 号 。 局 部 纠正 的 选择 由 编译 器 的 设计 者 来 完成 。 当 然 ， 编 译 器 
的 设计 者 必须 仔细 选择 替换 字符 串 ， 以 免 引 起 死 循环 。 例 如 ， 若 总 是 在 当前 输入 符号 的 前 面 播 
人 一 些 字 符 ， 就 有 可 能 引起 死 循 环 。 这 种 类 型 的 替换 可 以 纠正 任何 输入 字符 串 ， 并 且 已 经 被 用 
在 多 个 错误 修复 编译 器 中 。 该 方法 首先 被 用 于 自 顶 向 下 的 语法 分 析 中 。 它 的 主要 缺点 是 难以 应 
付 实际 错误 出 现在 诊断 点 之 前 的 情况 。 

出 错 产生 式 策 略 。 如 果 对 经 常 遇 到 的 错误 有 很 清楚 的 了 解 ， 我 们 可 以 扩充 语言 的 文法 ， 增 
加 产生 错误 结构 的 产生 式 。 然 后 用 由 这 些 错 误 产生 式 扩 充 的 文法 构造 语法 分 析 器 。 如 果 语 法 分 
析 器 使 用 了 出 错 产 生 式 ， 就 可 以 产生 适当 的 错误 诊断 信息 ， 指 出 我 们 在 输入 字符 串 中 识别 出 的 
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错误 结构 。 

全 局 纠正 策略 。 我 们 总 是 希望 一 个 理想 的 编译 器 在 处 理 不 正确 的 输入 字符 串 时 做 尽 可 能 少 
的 改动 。 有 一 些 算法 可 以 选择 最 小 的 修改 序列 ， 以 获得 全 局 代价 最 小 的 错误 纠正 。 如 果 给 定 错 
误 输入 串 x 和 文法 G， 这 些 算 法 会 发 现 y 的 一 棵 分 析 树 ， 以 便 使 用 最 少 的 符号 插 和 人 、 删 除 和 修改 
操作 把 zx 变换 成 正确 的 输入 字符 串 y。 不 幸 的 是 ， 实 现 这 些 算法 的 时 间 和 空间 开销 太 大 ， 目 前 人 
们 只 是 进行 了 一 些 理 论 上 的 探讨 。 

必须 指出 ， 最 近似 正确 的 纠 错 程序 并 不 一 定 是 程序 员 所 关心 的 。 然 而 ,“ 最 小 代价 纠正 ” 
的 概念 已 经 成 为 评价 错误 恢复 技术 的 一 种 标准 ， 并 且 已 经 被 用 于 短语 级 恢复 方法 中 最 优 替 换 字 
符 串 的 选择 。 


42 上 下 文 无 关 文法 


程序 设计 语言 的 许多 结构 都 包含 固有 的 递归 结构 ， 这 种 递归 结构 可 以 用 上 下 文 无 关 文 法 定 
义 。 例 如 ， 可 能 有 用 如 下 规则 定义 的 条 件 语句 : 

如 果 Si 和 5; 是 语句 ，E 是 表达 式 ， 则 “if E then Si else S” 是 诸 句 。 (4-1) 
这 种 形式 的 条 件 语句 不 能 用 正规 表达 式 说 明 。 在 第 3 章 中 ,我 们 已 经 看 到 正规 表达 式 能 够 说 明 
记号 的 词法 结构 。 如 果 使 用 语法 变量 stmt 表 示 语 句 类 ，expr 表 示 表 达 式 类 ， 我 们 可 以 使 用 下 面 
的 文法 产生 式 很 容易 地 表示 出 (4-1): 

stmt 一 if expr then stmt else stmt (4-2) 


本 节 将 回顾 一 下 上 下 文 无 关 文 法 的 定义 ， 并 介绍 一 些 和 语法 分 析 有 关 的 术语 。 由 2.2 节 中 
可 知 ， 上 下 文 无 关 文 法 由 终结 符 、 非 终结 符 、 开 始 符号 和 产生 式 组 成 。 

1. 终结 符 是 组 成 字符 串 的 基本 符号 。 在 讨论 程序 设计 语言 的 文法 时 ,“ 记 号 ”和 “终结 符 ” 
是 同义词 。 在 (4-2) 中 ， 关 键 字 证 、then 和 else 都 是 终结 符 。 

2. 非 终结 符 是 表示 字符 串 集合 的 语法 变量 。 在 (4-2) P, simt 和 expr 是 非 终结 符 。 非 终结 
符 所 定义 的 字符 串 集 合 有 助 于 定义 该 文法 所 产生 的 语言 。 非 终结 符 强加 给 语言 一 种 层次 结构 ， 
这 种 层次 结构 对 语法 分 析 和 翻译 都 非常 有 用 。 

3. 在 文法 中 ， 有 一 个 非 终 结 符 被 指定 为 开始 符号 。 开 始 符号 表示 的 字符 串 集合 就 是 文法 所 
定义 的 语言 。 

4. 文法 的 产生 式 说 明了 终结 符 和 非 终 结 符 组 合成 串 的 方式 。 每 个 产生 式 由 非 终 结 符 开始 ， 
跟随 一 个 箭头 ( 有 时 用 :: = 代替 箭头 )， 然 后 是 非 终结 符 和 终结 符 组 成 的 串 。 


例 4.2 ”具有 下 述 产生 式 的 文法 定义 了 简单 的 算术 表达 式 。 


expr > expr op expr 
expr > ( expr ) 
expr > 一 expr 
expr > id 

op > + 


在 该 文法 中 ， 终 结 符 包 插 刘 、+、-、*、/、11 、( 和 )， 非 终结 符 包 括 expr 和 op, expr 是 
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开始 符号 。 口 
4.2.1 符号 的 使 用 约定 


为 了 避免 反复 说 明 “ 这 些 是 终结 符 "、“ 那 些 是 终结 符 ” 等 等 ， 本 书 以 后 将 采用 下 列 与 文法 


有 关 的 约定 : 


1. 下 列 符号 是 终结 符 : 

1) 字母 表 中 比较 靠 前 的 小 写字 母 ， 如 a、b、c 等 。 
2) 操作 符 ， 如 +、- 等 。 

3) 标点 符号 ， 如 括号 、 喜 号 等 。 

4) 数字 0，1，…，9。 

5) RP, iid, it |, 

2. 下 列 符号 是 非 终结 符 ; 

D 字母 表 中 比较 靠 前 的 大 写字 母 ， 如 4、B、C 等 。 
2) 字母 $5， 它 常常 代表 开始 符号 。 

3) 小 写 斜 体 名 字 ， 如 expr、stmt 等 。 

3. 字母 表 中 比较 靠 后 的 大 写字 母 ， 如 X、Y、Z 等 ， 表 示 文 法 符号 ， 也 就 是 说 ， 可 以 是 非 


终结 符 也 可 以 是 终结 符 。 


4. 字母 表 中 比较 靠 后 的 小 写字 母 ， 如 w，v，… ,Zz 等 ， 表 示 终 结 符号 的 串 。 
5. 小 写 希 腊 字 母 ， 如 a、B、Y 等 ， 表 示 文 法 符号 的 串 。 因 此 ， 一 个 通用 产生 式 可 以 写作 


A 一 0， 箭头 左边 〈 产生 式 的 左 部 ) 是 一 个 非 终结 符 4， 箭头 右边 是 文法 符号 串 〈 产 生 式 右 部 )。 


6. 如 果 4 一 ol 、4 一 oo、…、4 一 ou 是 所 有 以 4 为 左 部 的 产生 式 《 称 为 4 产生 式 )， 则 可 以 


把 它们 写成 Aa, | oa 1 … | ou ’ 我 们 将 Oi. Oa, ot. Oe BRA A 的 候选 式 。 


7. 除非 另 有 说 明 ， 否 则 第 一 个 产生 式 左 部 的 符号 是 开始 符号 。 
例 4.3 使 用 上 述 简写 约定 ， 例 4.2 的 文法 可 以 简写 为 : 


E+EAE |(E) | -E | id 

A>+ ]- |x [st 
根据 上 述 约 定 ，E 和 4 是 非 终结 符 ，E 是 开始 符号 ， 其 他 符号 都 是 终结 符 。 口 
4.2.2 推导 


我 们 可 以 使 用 多 种 方法 观察 文法 定义 语言 的 过 程 。 在 2.2 节 中 ， 我 们 将 该 过 程 看 成 是 分 析 


树 的 建立 过 程 ， 但 推导 也 是 描述 文法 定义 语言 过 程 的 有 用 方法 ， 其 核心 思想 是 把 产生 式 看 成 重 
写 规则 ， 即 用 产生 式 右 部 的 串 来 代替 左 部 的 非 终结 符 。 事 实 上 ， 推 导 给 出 了 自 顶 向 下 构造 分 析 
树 过 程 的 精确 描述 。 


例如 ， 考 虑 下 面 的 算术 表达 式 文 法 : 
E+E+E|(Ex*xE|(E)|-E | id (4-3) 


其 中 , 非 终 结 符 E 表 示 一 个 表达 式 。 产 生 式 EO-E 意味 着 前 面 带 有 减 号 的 表达 式 仍然 是 表达 式 。 
这 个 产生 式 允 许 用 -E 代替 出 现 的 任何 E， 以 便 从 简单 的 表达 式 产生 更 复杂 的 表达 式 。 如 果 用 
~E 代 替 单 个 E， 这 个 动作 可 以 描述 为 


E=>-E 


读 为 “E 推导 出 -E”。 产 生 式 ECE) 表示 可 用 (E) 代 蔡 在 文法 符号 串 中 出 现 的 任何 E。 如 
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ExE=>(E)*E 或 E+ESE*(E)o 
我 们 可 以 从 巨 开 始 ， 不 断 地 (以 任何 顺序 ) 应 用 产生 式 ， 得 到 一 个 替换 序列 。 例 如 ， 


E => -E => ~(E) => ~(id) 


我 们 把 这 个 替换 序列 称 为 从 E 到 -Gd) A948. ESSER, FAP id) 是 表达 式 的 一 
个 特殊 实例 。 

更 抽象 地 ,我 们 说 a4B > ayp, WR 4 一 y 是 产生 式 , 而 且 oa 和 昌 是 任意 的 文法 符号 的 串 。 
如 果 ww > m= 人 ou ， 则 说 ol 推导 出 ou 。 符 号 二 表示 “一 步 推导 ”。 通 常 我 们 用 > 表示 

1. 对 任何 串 x，a => oa。 

2. 如 果 w A> Bp. mAy, Wot y 

类 似 地 ， 我 们 用 二 > 表示 “一 步 或 多 步 推 导 ”。 对 于 开始 符号 为 5 的 文法 G， 我 们 可 以 
Ht 关系 来 定义 G 所 产生 的 语言 LG). L(G) 中 的 字符 串 只 包含 G 的 终结 符 。 当 且 仅 当 5 二 > 
w 时 ， 我 们 说 终结 符 串 w 在 LOF, ZARR w 称 为 G 的 句子 。 由 上 下 文 无 关 文 法 产生 的 语 
言 称 为 上 下 文 无 关 语 言 。 如 果 两 个 文法 产生 同样 的 语言 ， 则 称 这 两 个 文法 等 价 。 

对 于 开始 符号 为 8 的 文法 G， 如 果 S 兰 > a， 则 称 & 为 G 的 句 型 ， 其 中 o 可 能 含有 非 终结 
符 。 名 子 是 不 含 非 终结 符 的 句 型 。 

例 4.4 FRP -(id+id) 是 文法 (4-3) 的 句子 ， 因 为 存在 如 下 推导 : 

E => -E => —(E) => (E +E) = —(id+£) => —(id+id) (4-4) 
tH SLE MES BRE REBE. -E, (E) +, -(idsid) 都 是 该 文法 的 句 型 。 我 们 用 ES- 
(id+id) 表 示 -(id+id) 可 以 由 E 推 导出 来 。 

按 推导 长 度 进行 归纳 ， 我 们 可 以 证 明文 法 (4-3) 产 生 的 语言 中 的 每 个 句子 都 是 由 二 元 操作 符 
+ 和 *、 一 元 操作 符 -、 括 号 以 及 运算 对 象 id 组 成 的 算术 表达 式 。 同 样 ， 按 算术 表达 式 的 长 度 
进行 归纳 ， 我 们 也 可 以 证 明 这 样 的 算术 表达 式 都 可 以 由 文法 (4-3) 产 生 。 因 此 , 文法 (4-3) 正 好 产 
生 所 有 包括 二 元 操作 符 + 和 *、 一 元 操作 符 - 、 括 号 以 及 操作 数 id 的 算术 表达 式 的 集合 。 O 

在 推导 的 每 一 步 都 有 两 个 选择 ， 首 先 我 们 需要 选择 被 替换 的 非 终结 符 ， 然 后 再 选择 用 于 替 
换 该 非 终 结 符 的 候选 式 。 例 如 ， 例 4.4 中 的 推导 (4-4) 也 可 以 从 E+E) 开始 如 下 进行 : 

~(E+E) => —(Et+id) => —(id+id) . (4-5) 
(4-3) 中 的 每 个 非 终结 符 都 使 用 与 例 4.4 中 相同 的 右 部 来 代替 ， 但 代替 的 顺序 不 一 样 。 

为 了 理解 语法 分 析 器 是 怎样 工作 的 ， 我 们 需要 考虑 每 一 步 都 替代 最 左 非 终结 符 的 推导 。 这 


样 的 推导 叫做 最 左 推导 。 如 果 0=>$ 是 最 左 推导 ， 可 以 写成 a 却 >B。 因 为 推导 (4-4) 是 最 左 推导 ， 
它 可 以 写成 


E > -E p> -(E) > -(Et E) z> —(id +E) = (id tid) 





使 用 前 面 的 约定 ， 每 一 步 最 左 推导 可 以 写成 wAY 却 > w6Y， 其 中 w 只 含 终结 符 ，4 一 8 是 推导 所 
用 的 产生 式 , y 是 文法 符号 的 串 。 为 了 强调 o 通过 最 左 推导 推导 出 B 这 一 事实 ,我 们 写 a 
Bo MWS So, WE a 是 该 文法 的 左 句 型 。 


我 们 可 以 类 似 地 定义 最 右 推 导 ， 即 每 步 推导 都 符 代 最 右 非 终 结 符 的 推导 。 最 右 推导 有 时 也 
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称 为 规范 推导 。 
4.2.3 分 析 树 和 推导 

分 析 树 可 以 看 成 是 推导 的 图 形 表 示 ， 但 它 不 能 显示 出 替代 顺序 的 选择 。 回 顾 2.2 节 ， 分 析 树 
的 每 个 内 节点 都 标 以 某 个 非 终结 符 4。4 的 子 节点 从 左 


到 右 分 别 被 用 来 蓉 换 4 所 使 用 的 产生 式 右 部 的 各 符号 E 

标记 。 分 析 树 的 叶 节 点 用 非 终结 符 或 终结 符 来 标记 ， Z N: 

它们 从 左 到 右 构成 一 个 句 型 ， 称 为 树 的 边界 或 果实 。 YAN 

例如 ，-(id+id) 的 推导 过 程 如 (4-4) 所 示 ， 其 分 析 树 如 ( > E S ) 

图 4-2 所 示 。 E l E 
为 了 说 明 推导 和 分 析 树 之 间 的 关系 ,我们 考虑 任 | | 

意 的 推导 u> w> >o, HP o 是 单个 非 终结 wad? ia 的 分 村 

符 4。 对 推导 中 的 每 个 句 型 ， 构 造 产 生 0 的 分 析 树 。 


该 过 程 是 对 i 的 归纳 。at = 4 对 应 的 分 析 树 是 标 有 4 的 单个 节点 ， 是 归纳 的 基础 。 为 了 完成 这 
种 归纳 ， 假 设 我 们 已 经 构造 了 产生 Qi .1 =XiX2…X( 在 我 们 的 约定 中 ，X; 代 表 一 个 非 终结 符 或 
终结 符 ) 的 分 析 树 BBE ow 是 用 B= 了 iY2…Y; 代 将 oi, 中 的 非 终结 符 % 所 产生 的 ， 即 在 推导 的 第 
Zep, 对 o-i 应 用 产生 式 X> B, 推导 出 ws = XXr Xa BX Xe 0 

为 了 模拟 推导 的 这 一 步 , 我 们 在 当前 的 分 析 树 上 找到 左边 第 j 个 叶子 ， 即 标记 为 为 的 叶子 。 
我 们 为 这 个 叶子 建立 7 个 子 节点 ， 并 从 左 到 右 标记 为 六， 坊 ，…，F,。 对 于 += 0 这 种 特例 ， 即 
B = ， 我 们 为 第 j 个 叶子 建立 一 个 子 节点 ， 其 标记 为 € 。 


例 4.5 考虑 推导 (4-4)。 从 该 推导 所 构造 出 的 分 析 树 序列 如 图 4-3 所 示 。 推 导 的 第 一 步 是 


E => -E。 为 了 模拟 这 一 步 ， 我 们 为 最 初 的 分 析 树 的 根 节点 E 增 加 两 个 子 节点 ， 分 别 标记 为 - 
M E. 


7 N 7 N 
一 E 一 E 
~ 六 
( E ) 
一 > E => E = E 
了 N pd N Z N 
一 E 一 E 一 E 
SIN 人 I、N ZAIN 
( E ) ( E ) ( E ) 
IN “in ZAIN 
E + E E + E E + E 
| 1 1 
id id id 


图 4-3 从 推导 (4-4) 所 构造 的 分 析 树 


推导 的 第 二 步 是 -5 二-(E)， 所 以 为 第 二 个 分 析 树 的 标记 为 E 的 叶 节 点 增加 三 个 子 节点 ,分 
别 标 记 为 ( 、E 和 )， 从 而 获得 带 有 结果 -( 思 的 第 三 棵 树 。 如 此 继续 ， 我 们 将 得 到 如 第 六 榜 树 所 
示 的 整个 分 析 树 。 口 


如 前 所 述 ， 分 析 树 忽略 了 名 型 中 符号 被 替代 的 顺序 。 例 如 ， 若 构造 推导 (4-5) 的 分 析 树 ， 其 
最 终 分 析 树 和 推导 (4-4) 的 最 终 分 析 树 (如 图 4-3 所 示 ) 相 同 。 如 果 只 考虑 最 左 推导 或 最 右 推导 )， 
则 可 以 消除 推导 过 程 中 产生 式 应 用 顺序 的 不 一 致 。 不 难看 出 ， 每 棵 分 析 树 都 有 一 个 与 之 对 应 的 
惟一 的 最 左 推导 和 惟一 的 最 右 推导 。 不 难 理解 ， 我 们 可 以 用 产生 分 析 树 方法 来 代替 推导 。 以 后 
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我 们 将 经 常 使 用 最 左 推导 和 最 右 推导 来 进行 语法 分 析 。 然 而 ， 每 一 个 句子 不 一 定 只 有 一 个 分 析 
树 ， 或 者 说 不 一 定 只 有 一 个 最 左 推导 或 最 右 推导 。 


例 4.6 ”让 我 们 再 次 考虑 算术 表达 式 文法 (4-3)。 句 子 id+tidxid 有 两 个 不 同 的 最 左 推导 : 


E => E+E E => Ex*E 
=> id+E => E+E*E 
=> id+ExE => id+E*E 
=> id+id*E => idt+id*E 
=> id+ idxid => id+idxid 
相应 的 分 析 树 如 图 4-4 所 示 。 口 
E E 
ZAIN ZIN 
E + E E * E 
| LIN SAN | 
id E * E E + E id 
| | | | 
id id id id 
a) b) 


图 4-4 id+idxid 的 两 棵 分 析 树 


注意 ， 图 4-4a 的 分 析 树 反映 了 通常 所 假定 的 + 和 * 的 优先 级 ， 而 图 4-4b 的 分 析 树 则 没有 。 
也 就 是 说 ,习惯 上 * 比 + 具有 更 高 的 优先 级 ， 因 而 表达 式 atbxc 被 看 成 a + (bec), MAE 
(a + b)*co 
4.24 二 义 性 

给 定 一 个 文法 G, WME L(G) 中 存在 一 个 具有 两 棵 或 两 棵 以 上 分 析 树 的 句子 ， 则 称 G 是 二 
义 性 的 。 我 们 也 可 以 如 下 定义 二 义 性 文法 : 如 果 L(G) 中 存在 一 个 具有 两 个 或 两 个 以 上 最 左 
(或 最 右 ) 推导 的 句子 ， 则 G 是 二 义 性 文法 。 很 多 语法 分 析 器 要 求 所 处 理 的 文法 是 无 二 义 的 ， 
否则 对 具有 二 义 性 的 句子 无 法 确定 应 该 选择 哪 棵 分 析 树 。 某 些 应 用 可 能 要 求 我 们 可 以 构造 适应 
于 二 义 性 文法 的 语法 分 析 器 ， 不 过 ， 这 种 文法 要 具有 消除 二 义 性 的 规则 ， 以 便 语 法 分 析 器 能 够 
“抛弃 ”不 需要 的 分 析 树 而 为 每 个 句子 保留 惟一 一 棵 分 析 树 。 


4.3 文法 的 编写 


文法 能 够 描述 程序 设计 语言 的 大 部 分 语法 成 分 , 但 不 能 描述 程序 设计 语言 的 全 部 语法 成 分 。 
当 词 法 分 析 器 从 输入 字符 串 产 生 记号 序列 时 ,将 完成 一 定量 的 语法 分 析 工 作 。 对 输入 字符 串 的 
RERA ( 如 标识 符 的 声明 必须 先 于 它们 的 使 用 ) 不 能 用 上 下 文 无 关 文 法 来 描述 。 因 此 ， 语 法 
分 析 器 接受 的 记号 序列 形成 了 程序 设计 语言 的 超 集 。 语 法 分 析 以 后 的 各 编译 阶段 必须 分 析 语 法 
分 析 器 的 输出 ， 以 保证 输入 字符 串 符 合 语法 分 析 器 无 法 检查 的 那些 规则 (参见 第 6 章 )。 

本 节 首 先 考虑 词法 分 析 器 和 语法 分 析 器 的 分 工 。 每 种 语法 分 析 方法 只 能 处 理 一 种 形式 的 文 
法 。 为 了 适应 所 选择 的 分 析 方 法 ,我 们 常常 不 得 不 改写 初始 文法 。 适 于 表达 式 的 文法 常常 用 
结合 律 和 优先 级 信息 来 构造 ， 如 2.2 节 所 讨论 的 那样 。 本 节 将 考虑 一 些 用 于 改写 文法 的 变换 规 
则 ， 以 便 产生 适 于 自 顶 向 下 分 析 的 文法 。 本 节 最 后 将 讨论 一 些 不 能 用 上 下 文 无 关 文 法 描述 的 


语言 结构 。 
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4.3.1 正规 表达 式 和 上 下 文 无 关 文 法 的 比较 

正规 表达 式 所 描述 的 每 一 种 结构 都 可 以 用 上 下 文 无 关 文法 来 描述 。 例 如 ， 正 规 表 达 式 
(alb)*abb 和 下 述 文法 描述 的 语言 皆 为 由 aa 和 4。 组 成 的 以 abb 结尾 的 字母 串 : 

Ay > aho | bAo | aA, 

A, > bA: 

A> > bA, 

A3 >€ 


我 们 可 以 机 械 地 把 一 个 不 确定 的 有 穷 自动 机 (NFA) 转换 成 一 个 等 价 的 上 下 文 无 关 文 法 ， 
该 文法 是 由 图 3-23 的 NFA 按照 下 列 规则 构造 的 : 

1. 对 NFA 的 每 个 状态 i， 创 建 一 个 非 终结 符 4, 。 

2. 如 果 状 态 i 遇见 输入 符号 a 转换 到 状态 j， 则 引入 产生 式 A 一 ahj。 

3. 如 果 状 态 i 遇见 输入 符号 € 转换 到 状态 j， 则 引入 产生 式 Ai 一 4j。 

4. 如 果 状 态 i 是 接受 状态 ， 则 引入 产生 式 AE. 

5. 如 果 状 态 i 是 开始 状态 ， 则 4 是 文法 的 开始 符号 。 

既然 正规 集 都 是 上 下 文 无 关 语 言 ， 我 们 可 能 要 问 : 为 什么 要 用 正规 表达 式 而 不 用 上 下 文 无 
关 文 法 来 定义 语言 的 词法 ”理由 如 下 : 

1. 语言 的 词法 规则 通常 非常 简单 ， 不 必 动 用 强大 的 文法 来 描述 。 

2. 对 于 记号 ， 正 规 表 达 式 比 上 下 文 无 关 文 法 提供 了 更 简洁 且 易 于 理解 的 定义 。 

3. 从 正规 表达 式 可 以 自动 地 构造 出 有 效 的 词法 分 析 器 ， 从 任何 文法 都 很 难 构造 词法 分 析 器 。 

4. 把 语言 的 语法 结构 分 成 词法 和 非 词 法 两 部 分 为 编译 器 前 端的 模块 划分 提供 了 方便 的 途径 。 

对 于 任何 一 种 语言 来 说 ， 哪 些 结构 应 作为 词法 规则 ， 哪 些 结构 应 作为 语法 规则 ， 并 没有 严 
格 的 界限 。 正 规 表 达 式 对 描述 标识 符 、 常 数 和 关键 字 等 词法 结构 最 有 用 。 另 一 方面 ， 文 法 在 描 
述 括 号 配对 、begin-end 配对 、if-then-else 对 应 等 人 套 结构 时 最 有 用 。 正 规 表 达 式 不 能 描述 这 
WREN. 
4.3.2 验证 文法 所 产生 的 语言 

尽管 编译 器 设计 者 很 少 关心 一 个 完整 的 程序 设计 语言 的 文法 是 否 正 确 地 产生 该 语言 ， 验 证 
给 定 的 文法 或 产生 式 集合 是 否 产生 指定 的 语言 是 非常 重要 的 。 通 过 精确 而 且 简 要 的 文法 并 研究 
文法 所 产生 的 语言 可 以 研究 棘手 的 语言 结构 。 后 面 我 们 会 构造 一 个 这 样 的 文法 。 

对 “文法 G 产生 语言 过 ”的 证 明 包括 两 部 分 : 我 们 必须 证 明 由 G 产生 的 每 个 字符 串 都 在 工 
中 ; 反之 , 工 中 的 每 个 字符 串 都 能 由 G 产生 。 


4.7 下 边 的 文法 G 能 而 且 仅 能 产生 所 有 配对 的 括号 串 ， 

S +(S)S |e (4-6) 

为 了 证 明 L(G) = {s1s 是 一 个 配对 的 括号 串 } ， 我 们 首先 证 明 从 8 推导 出 的 所 有 句子 都 是 配 
对 的 括号 串 ， 然 后 证 明 每 个 配对 括号 串 都 可 以 从 5 推导 出 来 。 我 们 对 推导 的 步 数 使 用 数学 归纳 
法 ,证 明 从 5 推导 出 的 所 有 句子 都 是 配对 的 括号 串 。 从 $ 经 过 一 步 推导 得 出 的 终结 符 串 只 有 空 
串 。 空 串 可 以 视 为 配对 的 括号 串 。 显 然 ， 当 推导 步 数 为 1 时 命题 正确 。 

现在 假设 所 有 少 于 疡 步 的 推导 所 产生 的 句子 都 是 配对 的 括号 串 ， 我 们 来 考察 一 个 半 步 最 左 
推导 。 这 个 推导 一 定 具 有 如 下 形式 : 


S =>(S)S È> (x)S E> (wy 
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由 于 从 5 推导 出 x 和 y 的 步 数 少 于 n 步 ， 根 据 归纳 假设 ，x 和 y 都 是 配对 括号 串 。 因 此 ，Goy 
也 一 定 是 配对 括号 串 。 

因此 我 们 已 经 证 明了 任何 从 S 中 推导 出 来 的 串 都 是 配对 的 括号 串 。 下 边 ， 我 们 对 括号 串 的 
长 度 使 用 数学 归纳 法 ,证 明 每 个 配对 括号 串 都 可 以 从 8 推导 出 来 。 空 串 是 配对 的 括号 串 ， 并 且 
可 以 使 用 产生 式 S$ 一 由 5 推导 出 来 。 于 是 ,长 度 为 0 的 括号 串 可 以 从 5 推导 出 来 。 

假设 每 个 长 度 小 于 2n 的 配对 插 号 串 都 可 以 从 5 推导 出 来 ， 我 们 来 考虑 长 度 为 2n (n= 1) 的 
配对 括号 串 w AURE, w 是 由 左 括号 开始 的 ， 令 (x) 是 w 的 具有 相同 个 数 的 左右 括号 的 最 
HA. ABA w 可 以 写作 (x)y， 其 中 x A y BERS P. BER x Al y 的 长 度 小 于 27, h 
妇 纳 假设 ， 它 们 可 以 从 5 推导 出 来 。 于 是 ， 我 们 可 以 找 出 如 下 形式 的 推导 : 

S =>(S)S => 0s S (xy 
从 而 证 明 w = (x)y 也 能 从 3 推导 出 来 。 口 
4.3.3 消除 二 义 性 

有 些 二 义 性 文法 可 以 通过 改写 来 消除 二 义 性 。 作 为 一 个 例子 ， 我 们 来 消除 下 面 的 “不 匹配 
else” 文 法 的 二 义 性 ， 


stmt 一 if expr then stmt 
| if expr then stmt else stmt (4-7) 
| other 


iH, other 代表 任何 其 他 语句 。 按 照 这 个 文法 ， 复 合 条 件 语句 
if E, then S, else if E, then S, else S3 
的 分 析 树 如 图 4-5 所 示 。 文 法 (4-7) 是 具有 二 义 性 的 ， 因 为 串 
if E, then if E, then S, else S, (4-8) 


有 两 棵 分 析 树 ， 如 图 4-6 所 示 。 


stmt 


BOS 


JS then stmt else stmt 
全 2 S 2 S 3 
图 4-5 条 件 语句 的 分 析 树 


所 有 包含 这 种 条 件 语句 的 程序 设计 语言 都 使 用 第 一 种 分 析 树 。 一 般 规 则 是 , “每 个 else 和 
前 面 最 近 的 没有 配对 的 then 配对 ”。 这 条 避免 二 义 性 的 规则 可 以 直接 并 入 文法 中 。 例 如 ， 可 以 
把 文法 (4-7) 改 写成 下 面 的 无 二 义 性 文法 ， 其 基本 思想 是 ;: 出 现在 then 和 else 之 间 的 语句 必须 
是 “配对 ”的 ， 即 它 不 能 以 一 个 未 配对 的 then 后 面 跟随 任意 的 非 else 语句 结束 ， 于 是 else 会 
被 迫 与 这 个 未 配对 的 then 匹配 。 配 对 的 语句 是 一 个 不 包含 不 配对 语句 的 if-then-else 语句 或 者 
任何 非 条件 语 句 。 因 此 ， 按 照 上 述 思 想 改写 后 的 文法 如 下 : 


stmt 一 matched_stmt 
| unmatched_stmt 


A 
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matched_stmt — if expr then matched_stmi else matched_stmt 
| other 


unmatched_stmt — if expr then stmt (4-9) 
| if expr then matched_stmi else unmatched_stmt 
该 文法 和 文法 (4-7) 产 生 同 样 的 语言 ， 但 对 串 stmt 
(4-9) 只 有 一 棵 分 析 树 ， 即 每 个 else 与 前 面 最 近 。 ”Af \ 
的 没有 配对 的 then 配对 的 分 析 树 。 if IS then stmt 
4.3.4 消除 左 递归 SY / Sk 
如 果 文 法 G 具 有 一 个 非 终 结 符 4 使 得 对 某 个 if expr then VAN else «simit 


字符 串 o 存 在 推导 At> Ao, WW G 是 左 递归 F, > 7, 
的 。 自 项 向 下 语法 分 析 法 不 能 处 理 左 递归 文法 ， mt 

因此 我 们 需要 一 种 消除 左 递归 的 变换 。 在 2.4 节 ; 

我 们 讨论 了 简单 的 左 递归 (其 中 存在 形 如 4 一 /I 

Aa 的 产生 式 )。 这 里 我 们 将 研究 一 一 般 情况 。 在 if Vin then sim: else 从 


2.4 节 我 们 说 明了 左 递归 产生 式 A 一 AalB 可 以 全 / KS 
由 下 面 的 非 左 递归 产生 式 来 代替 : IX then A 
A = BA’ E, 3 
A ~ aA’ |e 图 4-6 一 个 具有 二 义 性 的 句子 的 两 棵 分 析 树 


这 种 变换 没有 改变 从 4 推导 出 的 字符 串 集 合 。 这 条 规则 适用 于 很 多 文法 。 
例 4.8 考虑 下 面 的 算术 表达 式 文 法 : 


E~E+T|T 
T>T*F|F (4-10) 
F +(E) | id 


消除 EE 和 TT 的 直接 左 递 归 ( 形 如 A 一 Aa 的 产生 式 )， 可 以 得 到 


E > TE’ 
E' ~ +TE' |e 
T = FT' 
T' ~ *FT' |e 
F ~ (E) | id 


无 论 有 多 少 A 产生 式 ， 我 们 都 可 以 用 下 面 的 技术 来 消除 直接 左 递归 。 首 先 ， mame 
放 在 一 起 ; 


(4-11) 


A > Aa, | Aa; | °°: | Aam | Bi | Bo | “s+ |B, 

其 中 ， 每 个 B; 都 不 以 A 开头 。 然 后 用 下 面 的 产生 式 代替 4 产生 式 : 
A > BiA’ | BA’ | | BAA’ 
A’ + aA | aA’ | +--+ | and’ le 


变换 后 的 非 终结 符 4 与 变换 前 的 非 终 结 符 4 产生 同样 的 字符 串 集 合 ， 但 已 经 没有 左 递归 了 。 
这 种 方法 可 以 从 4 产生 式 和 A’ 产生 式 ( 假定 om 都 不 等 于 e ) 消除 直接 左 递归 ， 但 不 能 消除 包 
括 两 步 或 多 步 推导 的 左 递归 。 例 如 ， 考 虑 文法 


S + Aa |b _ 
A > Ac | Sd |e (4-12) 
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非 终结 符 5 是 左 递归 的 ， 因 为 $ > Aa > Sda, 但 不 是 直接 左 递 归 。 175 

下 面 的 算法 4.1 能 够 系统 地 消除 文法 中 的 左 递归 。 该 算法 对 于 所 有 无 循环 推导 ( 形 如 A 专 - |176 
4 的 推导 ) Ale 产生 式 〈 形 如 4 一 e 的 产生 式 ) 的 文法 都 有 效 。 循 环 推导 和 e 产 生 式 都 可 以 系统 
地 从 文法 中 消除 掉 ( 参见 练习 4.20 和 练习 4.22 )。 

算法 4.1 消除 左 递归 。 

输入 : 无 循环 推导 和 上 # 产生 式 的 文法 Go 

给 出 : 与 G 等 价 的 无 左 递归 文法 。 

方法 : 对 文法 G 应 用 图 4-7 的 算法 。 注 意 ， 得 到 的 非 左 递归 文法 可 能 含有 e 产生 式 。 口 

1. 以 某 种 顺序 排列 非 终结 符 A1，A2，…，A,; 


2. fori:= | to n do begin 


for j := 1 to i — | do begin 
用 产生 式 A> syl 62y1… y 代替 每 个 形 如 4; 一 4jY 的 产生 式 ， 


HP, A> 611 6;1…16 是 所 有 的 当前 A ER; 


end 


消除 4, 产 生 式 中 的 直接 左 递归 


end 





图 4-7 从 文法 中 消除 左 递归 的 算法 


现在 我 们 来 说 明 图 4-7 中 算法 正确 的 原因 。 算 法 第 2 步 中 的 外 层 for 循环 被 循环 执行 i-1 次 
以 后 ， 对 于 任何 形 如 A, A 的 产生 式 ， 其 中 上 < i， 必 有 1 > ko 结果 ， 在 下 一 次 循环 中 ， 循 
环 变量 为 j 的 内 层 循环 不 断 地 增 大 形 如 4 A, 的 产生 式 中 m 的 下 限 ， 直 到 m 2 i 然后 ， 
算法 消除 A SOE ARABIA, IBLE m KF i。 


例 4.9 让 我 们 把 消除 左 递归 算法 应 用 到 文法 (4-12) 上 。 从 技术 上 讲 ， 因 为 有 se 产生 式 ， 算 
法 4.1 不 一 定 有 效 ， 但 在 这 种 情形 下 产生 式 4 一 e 是 无 害 的 。 

令 非 终结 符 的 次 序 是 S、4。 在 3 产生 式 中 没有 直接 左 递归 ， 所 以 在 算法 第 2 步 ， 对 于 1 = 1， 
什么 也 没 做 。i = 2 时 ， 用 8 产生 式 替 换 A 一 Sd 中 的 3$， 得 到 下 面 的 4 产生 式 : 

A > Ac | Aad | bd |€ 


消除 4 产生 式 中 的 直接 左 递 归 ， 产 生 下 面 的 文法 : 177 
“SS—»Aalb 
A = bdA’ | A’ 
A' > cA’ | adA' |e 口 
4.3.5 提取 左 因子 
提取 左 因 子 是 一 种 对 产生 适合 预测 分 析 的 文法 非常 有 用 的 文法 变换 。 提 取 左 因子 的 基本 思 
想 是 ; 当 不 清楚 应 该 用 两 个 选择 中 的 哪 一 个 来 替换 非 终结 符 4 时 ， 可 改写 4 产生 式 来 推迟 这 
种 决定 ， 直 到 看 见 足 够 多 的 输入 能 做 出 正确 选择 为 止 。 
例如 ， 我 们 有 如 下 两 个 产生 式 ; 


stmt > if expr then stmt else stmt 
| if expr then stmt 


看 到 输入 记号 if 时 ， 我 们 不 能 立刻 决定 选择 哪个 产生 式 来 扩展 stmt, 一般 地 ， 如 果 A 一 
aß | ap: 是 A 的 两 个 产生 式 ， 输 入 字符 串 由 从 o 导出 的 非 空 串 开 始 ， 我 们 不 知道 是 用 aß Æ 
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扩展 A 还 是 用 xpB:。 然 而 ， 我 们 可 以 通过 先 将 4 扩展 到 oh' 来 推迟 这 个 决定 。 然 后 ， 扫 描 完 由 
oa 导出 的 输入 字符 串 后 ， 再 把 4' 扩展 成 Bi 或 也， 亦 即 提取 左 因子 。 经 过 这 样 的 变换 以 后 ， 原 
来 的 产生 式 变 为 

A => aA’ 

4 > B, | Be 


算法 4.2 提取 左 因子 。 

输入 : 文法 G。 

输出 : 一 个 等 价 的 提取 了 左 因子 的 文法 。 | 

Atk: 对 每 个 非 终 结 符 A4， 找 出 它 的 两 个 或 更 多 候选 式 的 最 长 公共 前 级。 如 果 aXe, 
即 有 一 个 非 平凡 的 公共 前 缀 , 则 用 下 面 的 产生 式 代替 所 有 4 产生 式 AaB. | op: 1 … 1 op。 1 Y， 
其 中 YY 表示 所 有 不 以 & 开头 的 候选 式 ; 


A > aA’ |y 

4 > Bi [B2 |> [Bs 
其 中 4' 是 一 个 新 的 非 终结 符 。 反 复 应 用 这 种 变换 ， 直 到 任 一 非 终结 符 都 没有 两 个 候选 式 具 有 
公共 前 缀 为 止 。 口 


例 4.10 下 面 是 从 文法 (4-7) 中 抽象 出 来 的 文法 : 


S + iEtS | iEtSeS | a _ 
FE (4-13) 


这 里 的 i, tM e 分 别 代 表 if, then flelse, EAS 表示 表达 式 和 语句 。 提 取 左 因子 后 ， 该 文法 
变 为 

S > iEtSS’ | a 

S +e le (4-14) 

E >b . 
于 是 ， 如 果 输 入 是 i， 我 们 可 以 将 5 扩展 到 ESS, SA iE1S 出 现 后 ， 再 决定 是 将 8 扩展 到 es 
还 是 e 。 当 然 ， 由 于 文法 (4-13) 和 (4-14) 都 是 具有 二 义 性 的 ， 所 以 对 于 输入 e， 我 们 不 清楚 应 该 
选择 8 的 哪个 候选 式 。 例 4.19 中 将 讨论 解决 这 种 问题 的 方法 。 l 口 
436 非 上 下 文 无 关 语言 的 结构 

有 些 语 言 不 能 用 任何 文法 产生 ， 这 并 不 奇怪 。 事 实 上 ， 在 很 多 程序 设计 语言 中 ， 仅 用 文法 
难以 完成 某 些 语法 结构 的 说 明 。 本 小 节 将 给 出 一 些 这 样 的 结构 ， 并 用 简单 的 抽象 语言 来 说 明 其 
难度 。 


例 4.11 考虑 抽象 语言 = {wcw | w 属于 (a 1 b)*}. L 是 所 有 由 c 隔 开 的 两 个 相同 a, b 
串 组 成 的 字母 串 集 合 ， 例 如 aabcaab。 这 个 语言 是 检查 程序 中 标识 符 的 声明 应 先 于 其 引用 的 抽 
象 ， 即 wew 中 的 第 一 个 w 表示 标识 符 w 的 声明 ， 第 二 个 w 表示 它 的 引用 。 可 以 证 明 该 语言 不 
是 上 下 文 无 关 语 言 ， 但 该 证 明 超 出 了 本 书 的 范围 。 这 个 例子 意味 着 Algol 和 Pascal 等 程序 设计 
语言 都 不 是 上 下 文 无 关 语言 ， 因 为 它们 要 求 标识 符 的 声明 先 于 引用 ， 并 且 人 允许 标识 符 任意 长 。 

由 于 上 述 原 因 ， 描 述 Algol 和 Pascal 语法 的 文法 并 不 定义 标识 符 中 的 字符 ， 而 只 是 用 文法 
中 id 这 样 的 记号 代表 所 有 的 标识 符 。 在 这 类 语言 的 编译 器 中 ,语义 分 析 阶 段 检查 标识 符 的 声 
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明 是 否 先 于 引用 。 口 


例 4.12 语言 L= (ebed) n 宇 1 且 m 宇 1} 不 是 上 下 文 无 关 语 言 。L 是 由 正规 表达 式 
a*b*c*d* 所 表示 的 语言 的 子 集合 ， 在 它 的 每 个 句子 中 ，a 和 ce 的 个 数 相等 ，b 和 d 的 个 数 相 等 。 
(or 意味 着 a 被 写 4 次 。) 它 是 “过 程 声明 的 形 参 个 数 和 过 程 引 用 的 实 参 个 数 应 该 一 致 ”的 抽象 ， 
a" Al bm 表示 两 个 过 程 说 明 的 形 参 表 中 分 别 有 n 和 m 个 参数 ，c" 和 d" 分 别 表示 调用 这 两 个 过 程 
时 的 实 参 表 。 

注意 ， 过 程 定义 和 引用 的 语法 并 不 涉及 到 参数 的 个 数 。 例 如 ， 一 个 类 似 于 Fortran EAk 
中 的 cALL 语 甸 的 文法 如 下 : 

stmt 一 call id ( expr_list ) 


expr_list 一 expr_list , expr 
| expr 


其 中 带 有 expr 的 产生 式 。 通 常 在 语义 分 析 阶 段 检查 call 中 的 实 参 个 数 是 否 正确 。 口 


例 4.13 语言 Ls = {a"b'c" | n=0} 是 L(a*b*c*) 子 集 合 ,每 个 串 包括 相等 个 数 的 a、b 和 co 
LL; 不 是 上 下 文 无 关 语 言 。 下 面 是 一 个 与 L 相关 的 问题 。 设 打字 时 用 下 划 线 标记 的 正文 ， 排 版 
输出 时 改 用 斜体 。 为 了 把 在 行 式 打印 机 打印 的 文本 文件 转换 成 适 于 在 照相 排版 机 上 输出 的 文 
本 ， 我 们 需要 用 斜体 代替 下 划 线 。 在 打字 机 上 打印 一 个 用 下 划 线 标记 的 单词 时 ， 首 先 在 键盘 
上 毅 打 一 串 与 这 个 单词 对 应 的 字母 键 ， 然 后 敲打 相等 数量 的 退 格 键 ， 最 后 融 打 相等 数量 的 底 
线 键 。 如 用 a 表示 任意 的 字母 键 ，b 表示 退 格 键 ，c 表示 底线 键 ， 则 L; 可 以 表示 所 有 用 下 划 线 
标记 的 单词 。 结 论 是 我 们 不 能 用 文法 描述 用 下 划 线 标记 的 单词 集合 。 但 是 ， 如 果 用 < 字母 , 退 
格 ,底线 > 三 元 组 表示 用 下 划 线 标记 的 单词 ， 我 们 可 以 用 正规 表达 式 (abc)* 表示 用 下 划 线 标记 
的 单词 集合 。 o 

有 趣 的 是 ， 有 些 语言 类 似 于 Li. Li, Ls, 但 却 是 上 下 文 无 关 语 言 。 例 如 ,Li' = (wew' lw 
属于 (al b)*} 是 上 下 文 无 关 语言 ， 其 中 wr 表示 w 的 逆序 。 它 可 以 由 下 面 的 文法 产生 ; 

S ~ aSa | bSb |c 
Ly! = {aber | n=1hmeSnEPRRKBA, EOE: 

S + aSd | aAd 

A > bAc | bc 
L” = {arb"c"d" | n> Amz thE kh FLEXA, HOE: 

S > AB 

A — aAb | ab 

B > cBd | cd 
BE, L= {ab | n 宇 1} 是 上 下 文 无 关 语言 ， 其 文法 为 : 

S + asb | ab 
值得 注意 的 是 ，L;' 是 不 能 用 正规 表达 式 表示 的 典型 例子 。 为 证 明 这 一 点 ， 假 设 L 是 由 某 个 正 
规 表达 式 表示 的 语言 ， 亦 即 我 们 可 以 构造 一 个 DFA D 接收 Ly。D 的 状态 数 必定 有 限 ， 设 为 上 。 
& DD 读 入 Ee，a，aa,，…，at 到 达 的 状态 分 别 为 so，s1，s2，…，5t， 即 5 是 D 读 入 i 个 a 后进 
人 的 状态 。 

AA D 只 有 上 大 个 不 同 的 状态 ， 在 序列 so, s, 0, s 中 至 少 有 两 个 状态 相同 。 假 设 w 和 
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相同 。 因 为 aib' 属 于 Ly， 从 状态 s;，D 可 接受 i 个 5b， 并 到 达 一 个 接收 状态 f。D 中 还 存在 一 条 
从 开始 状态 so 到 si; 再 到 了 的 路 径 ， 该 路 径 的 标记 为 a bi: ， 如 图 4-8 所 示 。 于 是 ，D 也 接受 dbi, 
与 D 接 受 Ly 的 假设 矛盾 。 


PICA a A 


标记 为 a 的 路 径 标记 为 b 的 路 径 


图 4-8 H$ abi F aibi W) DFA D 


通俗 地 讲 ， 我 们 说 “有 穷 自动 机 不 能 计数 ”是 指 有 穷 自 动机 不 能 接受 像 Ly 这 样 的 语言 
( 它 要 求 在 看 到 b 之 前 记 住 a 的 个 数 )。 类 似 地 ， 我 们 说 “上 下 文 无 关 文 法 能 计 2 项 的 数 ， 但 不 
能 计 3 项 的 数 ” 是 指 上 下 文 无 关 文 法 可 以 定义 Ls’, (HABE REM Lo 


44 自 顶 向 下 语法 分 析 


本 节 介 绍 自 顶 向 下 语法 分 析 的 基本 概念 以 及 构造 无 回溯 自 顶 向 下 语法 分 析 器 的 方法 。 无 
回 湖 自 顶 向 下 语法 分 析 器 也 称 为 预测 语法 分 析 器 。 本 节 还 将 定义 LL(I) 文 法 ， 这 种 文法 的 预测 
语法 分 析 器 可 以 自动 生成 。 本 节 除 了 形式 化 2.4 节 中 关于 预测 语法 分 析 器 的 讨论 之 外 ， 我 们 只 
考虑 非 递归 的 预测 语法 分 析 器 。 本 节 最 后 讨论 错误 恢复 问题 。 自 底 向 上 的 语法 分 析 器 将 在 4.5 
节 至 4.7 节 讨论 。 

4.4.1 递归 下 降 语 法 分 析 法 

自 顶 向 下 语法 分 析 的 目的 是 为 输入 字符 串 寻 找 最 左 推导 ， 或 者 说 ， 从 根 节点 〈 文法 开始 符 
号 ) 开始 ， 自 上 而 下 、 从 左 到 右 地 为 输入 字符 串 建立 一 棵 分 析 树 ， 并 以 预先 确定 的 顺序 创建 分 
析 树 的 节点 。 在 2.4 节 ， 我 们 已 经 讨论 了 一 种 不 需要 回溯 的 特殊 递归 下 降 分 析 法 ， 称 为 预测 分 
析 法 。 现 在 我 们 考虑 自 顶 向 下 分 析 的 一 般 形式 ， 称 为 递归 下 降 分 析 法 。 它 可 能 需要 回 湖 ， 即 需 
要 重复 地 扫描 输入 。 然 而 ， 需 要 回溯 的 语法 分 析 器 是 不 常见 的 ， 其 原因 是 在 分 析 程 序 设 计 语言 
的 结构 时 很 少 需要 回溯 。 即 使 在 分 析 自 然 语言 的 情况 下 ， 回 湖 也 不 是 非常 有 效 的 ， 并 且 列 表 的 
方法 (如 练习 4.63 的 动态 规划 算法 或 Earley [1970] 的 方法 ) 更 可 取 。 关 于 一 般 分 析 方 法 的 描 
述 请 参见 Aho and Ullman[1972b]。 

下 面 是 一 个 需要 回溯 的 例子 。 当 需要 回溯 时 ， 建 议 使 用 一 种 记录 输入 轨迹 的 方法 。 

例 4.14 考虑 下 述 文法 和 输入 字符 串 w = cad; 


S > cAd 
A >ab |a (4-15) 


为 了 自 项 向 下 地 为 w 建立 分 析 树 ， 我 们 首先 建立 只 具有 标记 为 8 的 单个 节点 的 树 。 输 入 指针 
指向 w 的 第 一 个 符号 c。 然 后 ， 我 们 用 $ 的 第 一 个 产生 式 来 扩展 该 树 ， 图 4-9a 所 示 的 树 。 


AN, JN, LN, 
~ | 
a) b) c) 


图 4-9 Be) Pree RR 
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最 左边 的 叶子 标记 为 c,， 匹配 w 的 第 一 个 符号 。 现 在 ， 我 们 将 输入 指针 移 到 w 的 第 二 个 符 
号 a。 考 虑 下 一 个 标记 为 A 的 叶子 。 用 A 的 第 一 个 候选 式 扩展 4， 得 到 图 4-9b 所 示 的 树 。 现 在 
我 们 已 经 匹配 了 第 二 个 输入 符号 es， 再 将 输入 指针 移 到 第 三 个 输入 符号 4， 把 它 和 下 一 个 标记 
为 b 的 叶 节 点 进行 比较 。 因 为 b 和 a 不 匹配 报告 失 败 ， 回 到 4， 看 是 否 还 有 别 的 候选 式 可 试 。 

EIB) 4 时 ， 我 们 必须 将 输入 指针 重 置 到 第 二 个 符号 ， 即 第 一 次 进入 A 时 的 位 置 。 这 意味 
着 4 的 程序 ( 类似 于 图 2-17 中 非 终 结 符 的 过 程 ) 必须 将 输入 指针 保存 在 一 个 局 部 变量 中 。 现 在 
尝试 A 的 第 二 种 候选 式 ， 得 到 图 4-9c 所 示 的 分 析 树 。 叶 子 a 匹配 w 的 第 二 个 符号 , 叶子 d 匹 
配 w 的 第 三 个 符号 。 因 为 已 经 产生 了 w 的 分 析 树 ， 我 们 停止 分 析 并 宣告 分 析 成 功 。 口 


虽然 递归 下 降 语 法 分 析 器 带 有 回潮 能 力 ， 左 递归 文法 也 会 使 其 进入 无 限 循环 ， 也 就 是 说 ， 
当 试 图 扩展 4 时 ， 我 们 可 能 最 终 会 发 现 : 我 们 在 不 断 地 试图 扩展 4， 但 输入 指针 并 没有 前 移 。 
4.4.2 预测 语法 分 析 器 

在 许多 情况 下 ， 通 过 仔细 地 编写 文法 ， 消 除 左 递归 ， 提 取 左 因子 ， 我 们 可 以 获得 一 个 有 效 
的 文法 ， 这 个 文法 可 以 用 不 带 回 淹 的 递归 下 降 语法 分 析 器 ( 即 2.4 节 讨论 的 预测 语法 分 析 器 ) 
来 分 析 。 为 了 构造 预测 语法 分 析 器 ， 对 给 定 的 当前 输入 符号 a 和 将 要 扩展 的 非 终结 符 4， 我 们 
必须 知道 ,在 A 的 所 有 可 选 产 生 式 4 一 ar 1 on 1 … 1 ou 中 ， 哪 个 候选 式 是 惟一 能 推导 出 以 a 
开头 的 串 。 预 测 语法 分 析 器 能 够 通过 观察 候选 式 所 推导 出 的 第 一 个 符号 ， 确 定 正确 的 候选 式 。 
这 种 方法 可 以 检测 出 多 数 程序 设计 诸 言 中 具有 不 同 关 键 字 的 控制 流 结构 。 例 如 ， 假 设 我 们 有 如 
下 产生 式 : 


stmt > if expr then stmt else stmt 
| while expr do stmt 
| begin stmt_list end 


MAKE if, while, begin 告诉 我 们 如 果 我 们 想 找到 一 条 语句 哪个 候选 式 是 惟一 可 能 成 功 的 
选择 。 
4.4.3 预测 语法 分 析 器 的 状态 转换 图 

在 2.4 节 ， 我 们 已 经 讨论 了 怎样 用 递归 程序 实现 预测 语法 分 析 器 ， 如 图 2-17 所 示 。 在 3.4 节 ， 
我 们 看 到 对 于 词法 分 析 器 的 设计 者 来 说 ， 状 态 转换 图 (transition diagram ) 是 非常 有 用 的 设计 
工具 。 我 们 也 可 以 为 预测 语法 分 析 器 创建 状态 转换 图 。 

词法 分 析 器 的 状态 转换 图 和 预测 语法 分 析 器 的 状态 转换 图 具有 明显 的 区 别 。 对 于 预测 语法 
分 析 器 , 每 个 非 终 结 符 都 对 应 一 个 状态 转换 图 ， 边 上 的 标记 是 记号 和 非 终结 符 。 记 号 (终结 符 ) 
上 的 转换 意味 着 如 果 该 记号 是 下 一 个 输入 符号 ， 就 应 进行 该 转换 。 非 终结 符 4 上 的 转换 是 对 与 
4 对 应 的 过 程 的 调用 。 

为 了 由 文法 构造 预测 语法 分 析 器 的 状态 转换 图 ， 首 先 需 要 消除 文法 中 的 左 递归 ， 然 后 提取 
左 因子 ， 并 对 每 个 非 终 结 符 A 执行 如 下 操作 : 

1. 创建 一 个 开始 状态 和 一 个 终 态 (返回 状态 )。 

2. 对 每 个 产生 式 A 一 X;X2…X,， 创 建 一 条 从 开始 状态 到 终止 状态 的 路 径 ， 边 上 的 标记 分 别 
AX, , Xa, et, Xno 

预测 语法 分 析 器 以 状态 转换 图 为 基础 完成 分 析 工 作 ， 其 工作 方式 如 下 : 开始 ， 语 法 分 析 器 
进入 状态 图 的 开始 状态 ， 输 入 指针 指向 输入 符号 串 的 第 一 个 符号 。 如 果 经 过 一 些 动作 后 ， 语 法 
分 析 器 进入 状态 s， 且 在 状态 图 上 从 状态 s 到 状态 1 的 边 上 标记 终结 符 <， 而 下 一 个 输入 符 又 正 
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好 是 a， 则 语法 分 析 器 将 输入 指针 向 右 移动 一 位 指向 下 一 个 符号 ， 语 法 分 析 器 进入 状态 to 另 一 
方面 ， 如 果 边 上 标记 的 是 非 终 结 符 4 ， 则 语法 分 析 器 进入 A 的 初始 状态 ， 但 不 移动 输入 指针 。 
一 旦 语法 分 析 器 到 达 4 的 终止 状态 ， 则 立刻 进入 状态 o 事实 上 ， 语 法 分 析 器 从 状态 s 转 移 到 
状态 ! 时 ， 它 已 经 从 输入 符号 串 “ 读 ”了 4。 最 后 ， 如 果 从 s 到 有 一 条 标记 为 的 边 ， 那 么 语法 
分 析 器 从 状态 * 直 接 进入 状态 t 而 不 移动 输入 指针 。 

基于 状态 转换 图 的 预测 分 析 程 序 试 图 进行 终结 符 和 输入 的 匹配 ， 并 且 ， 当 它 经 过 标记 为 非 
终结 符 的 边 时 ， 进 行 潜在 的 递归 过 程 调用 。 一 种 非 递归 的 实现 方法 是 ， 当 在 状态 s 上 有 一 个 标 
记 为 非 终 结 符 的 指向 其 他 状态 的 转换 时 ， 则 将 状态 s 压 入 栈 中 ， 当 到 达 该 非 终结 符 的 终止 状态 
时 ， 将 状态 s 弹出 栈 。 下 面 我 们 将 更 详细 地 讨论 状态 转换 图 的 实现 。 

如 果 给 定 的 状态 转换 图 是 确定 的 ， 即 一 个 状态 对 于 一 个 输入 仅 有 一 个 转换 ， 则 上 述 方法 是 
有 效 的 。 如 果 出 现 二 义 性 ， 可 以 用 下 边 例 4.15 中 的 方法 解决 。 如 果 不 能 消除 不 确定 性 ,我 们 就 
不 能 构造 预测 语法 分 析 器 。 但 是 我 们 可 以 构造 递归 下 降 语法 分 析 器 ， 用 回 湖 的 方法 尝试 所 有 可 
能 的 情况 〈 如 果 这 是 我 们 能 找到 的 最 好 的 分 析 策略 )。 


例 4.15 图 4-10 给 出 了 文法 (4-11 ) 所 对 E: MOA) O 
应 的 状态 转换 图 。 惟 一 的 二 义 性 在 于 确定 是 否 


R 
经 过 e 边 。 如 果 我 们 把 E' 的 开始 状态 的 出 边 解 。 E: + ©) 
释 为 对 E 的 开始 状态 ， 如 果 下 一 个 输入 是 (一 YD 

+， 则 选择 + 上 的 转换 ， 否 则 选择 e 上 的 转换 。 
F 


对 7 也 作 同 样 的 假定 ， 我 们 就 消除 了 二 义 性 ， tT: G+) O 
进而 就 可 以 为 文法 (4-1D) 编 写 预测 语法 分 析 器 
(11) 


我 们 可 以 通过 图 的 变换 化 简 状 态 转换 图 。 
这 些 变换 与 2.5 节 中 文法 的 变换 类 似 。 例 如 , 在。 p “_@£0-@ 
E 的 状态 转换 图 中 ， 对 自身 的 调用 可 以 被 中 
转 到 开始 状态 的 转换 所 代替 ， 如 图 4-11a 所 示 。 

图 4-1lb 是 已 的 等 价 状 态 转 换 图 。 用 图 4-1lb 图 4-10 文法 (4-11) 的 状态 转换 图 
所 示 的 状态 转换 图 代替 图 4-10 中 E 的 状态 转换 图 中 已 上 的 转换 ， 可 以 得 到 图 4-11c 中 的 状态 转 





c) d) 
图 4-11 简化 的 状态 转换 图 
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换 图 。 最 后 ， 我 们 观察 到 图 4-11c 的 第 一 个 和 第 
三 个 节点 是 等 价 的 ， 所 以 我 们 将 这 两 个 节点 合 
并 ， 结 果 如 图 4-11d 所 示 。 图 4-12 的 第 一 个 图 重 
复 了 图 4-11d。 把 同样 的 技术 应 用 到 了 和 的 
状态 转换 图 中 ， 结 果 如 图 4-12 所 示 。 用 C 实现 
的 与 图 4-12 对 应 的 预测 语法 分 析 器 要 比 图 4-10 
所 对 应 的 预测 语法 分 析 器 快 20% ~25 % © 
4.4.4 非 递归 的 预测 分 析 

通过 显 式 地 维护 一 个 状态 栈 ， 而 不 是 通过 
隐 式 的 递归 调用 ， 我 们 可 以 构造 非 递归 的 预测 
语法 分 析 器 。 预 测 分 析 的 关键 问题 就 是 确定 用 
于 扩展 非 终 结 符 的 产生 式 ， 图 4-13 中 的 非 递归 
语法 分 析 器 通过 查分 析 表 来 选取 产生 式 。 下 面 
我 们 将 看 到 怎样 从 文法 直接 构造 分 析 表 。 

表 驱 动 的 预测 语法 分 析 器 有 一 个 输入 缓冲 
区 、 一 个 栈 、 一 张 分析 表 和 一 个 输出 流 。 输 入 
缓冲 区 包含 要 分 析 的 串 ， 后 面 跟 一 个 符号 $，$ 
是 输入 串 的 结束 标记 。 栈 用 来 存放 文法 符号 序 
列 。 栈 底 符 号 是 $。 初 始 时 ， 栈 中 含有 文法 的 
开始 符号 及 其 下 边 的 $。 分 析 表 是 一 个 二 维 数 
组 M[A,a], A 是 非 终结 符 ，a 是 终结 符 或 $。 


号 a 决定 语法 分 析 器 的 动作 : 





+ 
O10) 





“© 0 oF 


图 4-12 算术 表达 式 的 简化 状态 转换 图 






预测 分 析 程 序 


图 4-13 非 递 归 的 预测 语法 分 析 器 模型 
语法 分 析 器 由 一 个 按 如 下 方式 工作 的 程序 控制 : 程序 根据 栈 顶 当前 的 符号 X 和 当前 输入 符 


1. 如 果 X= a=$， 则 语法 分 析 器 宣告 分 析 成 功 并 停止 。 

2. 如 果 X= az 上 $， 则 语法 分 析 器 弹出 栈 顶 符号 X， 并 将 输入 指针 移 到 下 一 个 输入 符号 上 。 

3. 如 果 闫 是非 终结 符 ， 则 程序 访问 分 析 表 M 的 M [X,a] 项 。M [X,a] 项 是 文法 的 一 个 和 产 
生 式 或 者 是 出 错 信 息 。 例 如 ， 如 果 M[X,a] = {X 一 UVW }， 则 语法 分 析 器 用 WVU (U ERT ) 


代替 栈 顶 符号 X。 至 于 输出 ,我们 假设 语法 
分 析 器 只 是 打印 出 所 用 的 产生 式 ， 当 然 也 可 
以 执行 其 他 代码 。 如 果 M [X,a] = error， 则 
语法 分 析 器 调用 错误 恢复 程序 。 
语法 分 析 器 的 行为 可 以 用 它 的 格局 来 描 
述 ， 格 局 中 给 出 了 栈 的 内 容 和 剩余 的 输入 。 


算法 4.3 非 递归 的 预测 分 析 。 

WA: E w 和 文法 G 的 分 析 表 M. 

输出 : 如 果 w BTF LG, Mh w 的 
最 左 推导 ， 和 否则 报告 错误 。 

方法 : 开始 时 ， 语 法 分 析 器 的 格局 是 
$5 在 栈 里 (其 中 5 是 G 的 开始 符号 且 在 栈 
顶 )，w$ 在 输入 缓冲 区 。 图 4-14 是 用 预测 分 


Sip 指向 w$ 的 第 一 个 符号 ; 


repeat 


令 X 是 栈 顶 符号 ，a 是 ip 指向 的 符号 ; 
if X 是 终结 符 或 者 是 $ then 


if X 


else 
else 


= a then 


从 栈 中 弹出 X，ip 指向 下 一 个 符号 


error () 


A/*# X 是 非 终 结 符 #*/ 


if M [X, a] = X >Y, YY then begin 


end 
else 


until X = $ 


从 栈 中 弹出 X; 
HY., Ver. os YAR, YER TR; 
输出 产生 式 X 一 也 7 六 


error () 
/*# 栈 空 */ 





图 4-14 预测 分 析 程 序 
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PM 分 析 输 入 串 的 程序 。 


例 4.16 ”考虑 例 4.8 中 的 文法 (4-11)。 该 文法 的 预测 分 析 表 如 图 4-15 所 示 。 表 中 空白 表 项 表 
示 出 错 ， 非 空白 表 项 表示 一 个 产生 式 ， 用 来 替换 栈 顶 的 非 终结 符 。 注 意 ， 稍 后 我 们 再 说 明 怎 样 


选择 这 些 表 项 。 








图 4-15 文法 (4-11) 的 分 析 表 M 


如 果 输 入 是 idridxid ， 预 测 语法 分 析 器 所 做 的 移动 如 图 4-16 所 示 。 输 入 指针 指向 输入 栏 中 
符号 串 最 左边 的 符号 。 如 果 仔 细 观 察 语法 分 析 器 的 动作 ， 我 们 将 会 发 现 语法 分 析 器 跟踪 的 是 输 
人 的 最 左 推导 ， 即 产生 式 输出 的 正好 是 最 左 推导 中 使 用 的 那些 产生 式 。 已 经 扫描 过 的 输入 符号 
加 上 栈 中 的 文法 符号 ( 从 顶 到 底 ) 构成 该 推导 的 左 句 型 。 口 


4.4.5 FIRST 和 FOLLOW 

构造 文法 G 的 分 析 表 需要 两 个 与 G 有 
关 的 函数 FIRST 和 FOLLOW。 我 们 可 以 用 
这 两 个 函数 来 填写 G 的 分 析 表 的 表 项 。 由 
FOLLOW 函数 产生 的 记号 集合 还 可 用 做 紧 
急 方 式 错误 恢复 期 间 的 同步 记号 。 

如 果 a 是 任意 的 文法 符号 串 ， 则 我 们 
定义 FIRST(o 是 从 o 推导 出 的 串 的 开始 符 
号 的 结 终 符 集合 ， 即 FIRSTO) = {a lat> 
4…，4 是 终结 符 }。 如 果 Q e, Meth 
属于 FIRST(o)。 

设 A4 是 一 个 非 终 结 符 ， 我 们 定义 
FOLLOW(4) 是 包含 所 有 在 句 型 中 紧 跟 在 A 
后 面 的 终结 符 a 的 集合 ， 即 FOLLOW(4) = 
{a15 +> ohaB，a 是 终结 符 }。 注 意 , 在 

















id + id * id$ 





$E'T id + id * id$ | E -> TE' 

S$E'T'F id + id * id$ | T — FT’ 

$E'T'id id + id * id$ | F — id 

$E'T’ + id * id$ 

$E' + id * id$ | T’ +e 

$E'T + + id x id$ | E' + +TE’ 

$E'T id * id$ 

$E'T'F id * id$ | T ~ FT' 

$E'T’id id * id$ | F > id 

$E'T' * id$ 

SE'T'F x * id$ | T’ 一 *FT' 
id$ 


id$ 


图 4-16 预测 语法 分 析 器 在 输入 id+idxid 上 所 做 的 移动 


推导 的 某 一 时 刻 ， 在 4 和 a 之 间 可 能 有 符号 ,但 如 果 是 这 样 ， 它 们 将 推导 出 e 并 消失 。 如 果 A 
是 某 个 句 型 的 最 右 符 号 ， 那 么 $ 属 于 FOLLOW(4)。 


为 了 计算 文法 符号 X 的 FIRST(X)， 我 们 可 以 应 用 下 列 规 则 ， 直 到 没有 终结 符 或 e 可 加 到 某 


个 FIRST 集 合 为 止 : 


1. 如 果 X 是 终结 符 ， 则 FIRST(X) 是 {X}。 


2. 如 果 X 一 “是 一 个 产生 式 ， 则 将 e 加 到 FIRST(CO 中 。 
3. WR X BARRE, HX OY yy 是 一 个 产生 式 ， 则 
a) FIRST(Y;) 中 的 所 有 符号 在 FIRSTO P. ° 


O 此 小 点 内 容 原 书 中 未 体现 ， 为 译 者 补充 。 一 一 编者 注 。 
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b) 若 对 于 某 个 i,，a 属于 FIRSTO) 且 e 属于 FIRST(Y)), +, FIRST(¥-1), Bl Yie Ya > 
e ， 则 将 a 加 入 FIRST(CO 中 。 

c) 若 对 于 所 有 的 j=1，2，…, KK，e 在 FIRST(Z) 中 ， 则 将 e 加 到 FEIRSTCO 中 。 

例如 ，FIRST(Y7)) 中 的 每 个 元 素 确实 都 在 FIRST(CO 中 。 如 果 Y 不 能 导出 e ， 则 不 再 往 
FIRST(X) 中 增加 新 符号 ， 如 果 y 2 € ， 则 将 FIRST(7) 加 到 FIRSTCO 中 ， 依 此 类 推 。 

现在 ,我 们 可 以 按 如 下 方式 计算 任何 串 XX X 的 开始 符号 集合 FIRST(X X: Xn) 
FIRST(X,) 中 的 所 有 非 符号 加 到 FIRST (XX2…X, Po WR E 属于 FIRST(X1)， 还 要 加 入 
FIRST(X;) 中 的 所 有 非 符号 ， 如 果 e 属于 FIRST (CXD 和 FIRST (X), WHIA FIRST (X) 的 所 
有 非 e 符 号 ， 依 此 类 推 。 最 后 ， 如 果 e 属于 所 有 FIRST(X;))， 把 e 加 入 FIRST (XiX2…X)。 

为 计算 所 有 非 终结 符 4 的 后 继 符号 集合 FOLLOW(4)， 我 们 可 以 应 用 如 下 规则 ， 直 到 每 个 
FOLLOW 集合 都 不 能 再 加 入 任何 符号 或 $ 为 止 : 

1. 将 $ 放 和 人 FOLLOW(S) 中 ， 其 中 5 是 开始 符号 ，$ 是 输入 串 的 结束 符 。 

2. 如 果 存 在 产生 式 A 一 aBB， 则 将 FIRST(B) 中 除 e 以 外 的 符号 都 放 入 FOLLOW(B) 中 。 

3. 如 果 存 在 产生 式 A> aB, R A 一 QB8B， 其 中 FIRST(B) 中 包含 e ( 即 B 兰 >e )， 则 将 
FOLLOW(A) 中 的 所 有 符号 都 放 人 FOLLOW(B) 中 。 


例 4.17 我们 把 文法 (4-11) 重 写 如 下 : 


E > TE’ 
E' + +TE' |e 
T >=> FT’ 

T + *FT' | e 
F ~(E)|id 


FIRST(E) = FIRST(T) = FIRST(F) = {(, id}. 
FIRST(E’) = {+, e} 

FIRST(T’) = {x, €} 

FOLLOW(E) = FOLLOW(E’) = {), $} 
FOLLOW(T) = FOLLOW(T’) = {+, ), $} 
FOLLOW(F) = {+, *, ), $} 


例如 ,根据 计算 FIRST 的 规则 1，FIRST(id) = {id} A. FIRST(‘() = { ( }。 根据 规则 3 与 i = 1, 
id 和 左 括号 被 加 入 FIRST( 太 中。 再 根据 规则 3 与 i = 1， 产 生 式 TOFT 意味 着 id 和 左 括号 也 在 
FIRST(7) 中 。 另 外 ， 根 据 规 则 2，e 属于 FIRST(E). 

为 计算 FOLLOW 集 ， 我 们 根据 计算 FOLLOW 的 规则 1 将 $ 放 入 FOLLOW(E) 中 。 把 规则 2 
应 用 到 产生 式 F(E), AES tee FOLLOW(E) 中 。 把 规则 3 应 用 到 产生 式 E 一 TE'，$ 和 右 括 
号 在 FOLLOWE) +. AWE 态 > se ， 所 以 它们 也 在 FOLLOWIT) F, X FOLLOW 计算 规 
则 应 用 的 最 后 一 个 例子 ， 根 据 规则 2， 产 生 式 E 一 TE 意味 着 FIRST(E) 中 除 e 以 外 的 所 有 字 
符 都 应 该 放 人 FOLLOW(7) 中 。 我 们 已 经 看 到 $ E FOLLOWIT) Fo 口 


4.4.6 预测 分 析 表 的 构造 
下 面 的 算法 可 以 用 于 构造 文法 G 的 预测 分 析 表 。 该 算法 的 基本 思想 是 : 如 果 4 o 是 产生 
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AH a 在 FIRST(o) 中 ， 那 么 当前 输入 符号 为 a 时 ， 语 法 分 析 器 将 用 wx 展开 4。 惟 一 复杂 的 情 
况 发 生 在 a= 或 者 až> e 时 。 在 这 种 情况 下 ， 如 果 当 前 输入 符号 属于 FOLLOW(4)， 或 者 
如 果 输 入 已 经 到 达 $ 而 $ 在 FOLLOW(4) 中 , 语法 分 析 器 仍 将 用 a 展开 4。 

算法 4.4 构造 预测 分 析 表 。 

输入 : 文法 G。 

输出 : 分 析 表 M., 

Fik: 

1. 对 于 文法 中 的 每 个 产生 式 4 一 a， 执 行 第 2 和 第 3 步 。 

2. 对 FIRST(Q) 中 的 每 个 终结 符 a, 将 A 一 a 加 入 到 MIA, a] 中 。 

3. F € 在 FIRST(a) 中 ， 则 对 FOLLOW(4) 的 每 个 终结 符 bp, 将 4 一 ga 加 入 到 MIA, b] 
中 ; 若 e 在 FIRST(o 中 ， 且 $ 在 FOLLOW(4) 中 ， 则 将 Ao 加 入 到 MIA, $] 中 。 

4. 将 M 中 每 个 没 定义 的 表 项 均 置 为 error。 口 

例 4.18 ”让 我 们 把 算法 4.4 用 于 文法 (4-11)。 因 为 FIRST(TE') = FIRST(T) = {(, id}, FER 
E—>TE' 使 得 M(E, (] M MIE, id] 表 项 含有 产生 式 E 一 TE'。 

FER E 一 + TE’ (849 M[E'+]2 GA E 一 + TE'。 因 为 FOLLOW(E') = {), $), PER 
E'— e 使 得 M[E', )] 和 MI[E', $] 表 项 含有 天 一 e 。 

把 算法 4.4 应 用 于 文法 (4-11) 后 产生 的 分 析 表 如 图 4-15 所 示 。 口 
4.4.7 LL(1) 文 法 

算法 4.4 应 用 于 任何 文法 G 可 以 产生 分 析 表 M。 然 而 ， 对 某 些 文法 ，M 可 能 含有 和 多重 定义 
的 表 项 。 例 如 ， 若 G 是 左 递归 的 或 是 二 义 性 的 ， 则 MM 至 少 包含 一 个 多 重 定义 的 表 项 。 

例 4.19 让 我 们 再 一 次 考虑 例 4.10 中 的 文法 (4-13)。 为 方便 起 见 ， 将 文法 重 写 如 下 : 


S + iE1SS' | a 
Si ~ es |e 
E >b 


该 文法 的 分 析 表 如 图 4-17 所 示 。 


mr 





| 
S 一 
| 
图 4-17 文法 (4-13) 的 分 析 表 M 

因为 FOLLOW(S’) = {e,$}， 所 以 MIS. e] 同时 包含 8 一 eS 和 9 一 e 。 该 文法 是 具有 二 义 
性 的 。 这 种 二 义 性 非常 明显 ， 即 遇见 e (else) 时 不 知 该 选用 哪个 产生 式 。 我 们 可 以 只 选择 S 一 
eS 来 解决 这 种 二 义 性 ， 这 个 选择 刚好 与 else 和 最 接近 的 then 配对 的 原则 相对 应 。 注 意 ， 选 择 
Sie 会 使 e 不 能 压 人 栈 或 从 输入 中 移 掉 ， 因 此 肯定 是 错误 的 。 口 


分 析 表 中 没有 多 重 定义 表 项 的 文法 叫做 LL(1) 文 法 。LL(1) 中 的 第 一 个 L 代 表 从 左 向 右 扫 描 
输入 , 第 二 个 L 代 表 产 生 最 左 推导 , 1 代表 在 决定 语法 分 析 器 的 每 步 动作 时 向 前 扫描 一 个 输入 符 。 


语法 分 新 127 


可 以 证 明 ， 算法 4.4 可 以 为 任何 LL(1) 文 法 G 产生 分 析 表 。 这 个 分 析 表 能 分 析 G 的 所 有 人 句子， 
而 且 只 能 分 析 G 的 句子 。 

LL(1) 文 法 有 一 些 特 殊 的 性 质 。 它 不 是 二 义 性 的 ， 也 不 含 左 递归 。 可 以 证 明 ，G 是 LL(1) 文 
法 ， 当 且 仅 当 G 的 任何 两 个 不 同 的 产生 式 Aro | B 满足 下 面 的 条 件 : 

1 不 存在 这 样 的 终结 符 a， 使 得 和 BB 导出 的 串 都 以 开始 。 

2.a MRB 中 至 多 有 一 个 能 导出 空 串 。 

3. WERS eE, WA a 不 能 导出 以 FOLLOW(4) 中 的 终结 符 开 始 的 任何 串 。 

很 明显 ，(4-11) 的 算术 表达 式 文法 是 LL(1) 文 法 。(4-13) 中 模拟 if-then-else 语句 的 文法 不 是 
LL(1) 文法 。 

剩 下 的 问题 是 ， 当 分 析 表 中 含有 多 重 定义 的 表 项 时 应 该 怎么 办 ? 一 种 办 法 是 进行 文法 变 
换 , 消除 左 递归 和 提取 所 有 可 能 的 左 因 子 , 以 期 产生 的 新 文法 的 分 析 表 中 没有 多 重 定义 的 表 项 。 
不 幸 的 是 ， 有 些 文法 不 论 怎 么 变化 也 不 能 产生 LLA) 文法 。 文 法 (4-13) 就 是 这 样 的 一 个 例子 ， 
根本 没有 LLO) 文法 能 产生 它 的 语言 。 正 如 我 们 所 看 到 的 ， 让 MIS’, el = {S'es}, IAI 
以 用 预测 语法 分 析 器 对 (4-13) 进 行 分 析 。 一 般 来 说 ， 没 有 一 个 普遍 适用 的 规则 可 以 用 来 删除 多 
重 定义 的 表 项 ， 使 其 成 为 单 值 而 不 影响 语法 分 析 器 所 识别 的 语言 。 

使 用 预测 分 析 的 主要 困难 在 于 为 源 语言 编写 一 个 能 构造 出 预测 语法 分 析 器 的 文法 。 虽 然 消 
除 左 递归 和 提取 左 因 子 都 非常 简单 ， 但 它们 使 得 结果 文法 很 难 阅 读 而 且 不 易于 翻译 。 为 降低 上 
述 难 度 ， 编 译 器 中 语法 分 析 恬 常常 同时 使 用 两 种 方法 ， 即 使 用 预测 分 析 方 法 分 析 控 制 结 构 ， 使 
用 算 符 优先 分 析 方 法 分 析 表 达 式 〈 将 在 4.6 节 中 讨论 ) 然而 ， 如 果 LR 语 法 分 析 器 ( 如 4.9 节 中 
讨论 的 ) 的 生成 器 可 用 ， 则 可 以 自动 获得 预测 分 析 和 算 符 优先 分 析 的 一 切 优 点 。 

448 预测 分 析 的 错误 恢复 

非 递归 预测 语法 分 析 器 的 栈 使 得 语法 分 析 器 希望 同 剩余 输入 串 进行 匹配 的 终结 符 和 非 终结 
符 变 得 十 分 清楚 。 因 此 ， 在 下 面 的 讨论 中 ， 我 们 将 引用 栈 中 符号 。 在 预测 分 析 过 程 中 ， 如 果 栈 
顶 的 终结 符 和 下 一 个 输入 符号 不 匹配 或 者 栈 顶 是 非 终 结 符 A4，a 是 下 一 个 输入 符号 ， 而 M [Aa] 
是 空白 表 项 ， 则 检测 出 一 个 错误 。 

紧急 方式 错误 恢复 策略 主要 基于 以 下 思想 ， 跳 过 一 些 输 入 符号 ， 直 到 期 望 的 同步 记号 中 的 
一 种 出 现 为 止 。 它 的 效果 依赖 于 同步 记号 集合 的 选择 。 这 个 集合 的 选择 应 该 使 得 语法 分 析 器 能 
迅速 地 从 实际 可 能 发 生 的 错误 中 恢复 过 来 。 下 面 是 一 些 启发 式 的 方法 : 

1, 开始 ， 我 们 可 以 把 FOLLOW(4) 中 的 所 有 符号 放 入 非 终 结 符 4 的 同步 记号 集合 中 。 如 果 
出 现 错误 时 栈 顶 元 素 是 4， 我 们 可 以 跳 过 一 些 记 号 ， 直 到 看 见 FOLLOW(4) 中 的 元 素 ， 再 把 A 
弹出 栈 。 这 样 我 们 就 可 以 继续 进行 语法 分 析 。 

2. 仅 使 用 FOLLOW(A) 作为 4 的 同步 集合 是 不 够 的 。 例 如 ， 在 C 语 言 中 分 号 用 于 表示 语句 
结束 ， 语句 开始 的 关键 字 很 可 能 不 出 现在 产生 表达 式 的 非 终 结 符号 的 FOLLOW 集合 中 。 因 此 
赋值 语句 分 号 的 遗漏 会 导致 下 一 语句 的 开始 关键 字 被 跳 过 。 语 言 的 结构 往往 具有 层次 结构 ， 
如 表达 式 出 现在 语句 中 ， 语 句 出 现在 程序 块 中 ， 等 等 。 我 们 可 以 把 高 层 结 构 的 开始 符号 加 到 
低层 结构 的 同步 集合 中 。 例 如 ， 可 以 把 表示 语句 开始 的 关键 字 加 入 产生 表达 式 的 非 终结 符 的 
同步 集合 中 。 

3. 如 果 把 FIRST(4) 的 符号 加 入 非 终结 符 4 的 同步 集合 , 那么 我 们 可 以 恢复 关于 A 的 分 析 ， 
只 要 FIRST(A) 的 符号 出 现在 输入 中 。 

4. 如 果 非 终结 符 能 产生 空 串 ， 则 可 以 将 产生 空 串 的 产生 式 作为 默认 选择 。 这 样 做 会 延迟 某 


128 £4¢ 





些 错 误 的 发 现 ， 但 不 会 漏 掉 ， 而 且 这 种 方法 可 以 减少 错误 恢复 时 要 考虑 的 非 终结 符 数 。 

5. 如 果 栈 顶 的 终结 符 不 能 被 匹配 ， 那 么 简单 的 办 法 就 是 弹出 该 终结 符 ， 并 给 出 提示 信息 ， 
说 明 输 入 中 插入 了 该 符号 ， 然 后 继续 进行 分 析 。 实 际 上 ， 这 种 方式 等 于 把 所 有 其 他 的 记号 作为 
该 记号 的 同步 集合 。 

例 4.20 ”根据 文法 (4-11) 分 析 表 达 式 时 ， 使 用 FOLLOW 集 和 FIRST 集中 的 符号 作为 同步 
记号 是 合情合理 的 。 该 文法 的 分 析 表 ( 图 4-15 ) 重 写 为 图 4-18， 并 用 synch 来 指示 从 非 终 结 符 
的 FOLLOW 集合 中 获得 的 同步 记号 。 非 终结 符 的 FOLLOW 集 可 以 由 例 4.17 获 得 。 

图 4-18 所 示 表 的 使 用 过 程 如 下 : 如 果 语 法 分 析 器 发 现 表 项 M[4,a] 为 空 ， 则 跳 过 输入 符号 
a; 如 果 表 项 是 synch， 则 弹出 栈 顶 的 非 终结 符 并 试图 恢复 分 析 ; 如 果 栈 顶 的 记号 与 输入 符号 不 
匹配 ， 则 从 栈 顶 弹出 该 记号 。 

















图 4-18 加 到 图 4-15 的 分 析 表 中 的 同步 记号 

图 4-18 对 应 的 语法 分 析 器 和 错误 恢复 

机 制 在 面临 错误 的 输入 Jid + + id 时 的 行为 
如 图 4-19 所 示 。 口 $E 


上 面 讨论 的 紧急 方式 恢复 策略 没有 涉  SE'TF 
及 出 误 信息 这 个 重要 问题 。 一 般 来 说 , 出 ria 
误 信息 必须 由 编译 器 的 设计 者 提供 。 $E'T'F* 
通过 在 预测 分 析 表 的 空白 表 项 填 上 出 se 
错 处 理 程序 指针 即 可 实现 短语 级 恢复 。 这 , 
些 程序 可 以 修改 、 插 入 或 删除 输入 符号 并 
给 出 适当 的 出 错 信息 。 它 们 也 可 能 弹出 栈 
中 的 符号 。 如 果 人 允许 蔡 换 栈 顶 符号 或 者 将 
新 的 符号 压 人 栈 顶 可 能 会 出 问题 ， 因 为 这 
样 会 使 得 语法 分 析 器 执行 的 步骤 跟 语 言 中 
任何 词 的 推导 都 不 对 应 。 不 管 怎样 ， 我 们 









)id * + id$ 
id * + id$ 
id * + id$ 
id« + id$ 
id * + id$ 









错误 ， 跳 过 ) 
id 在 FIRST( 甩 中 


错误 ，M [F, +] = synch 
F 已 经 被 弹出 


必须 确保 不 会 产生 无 限 循环 。 有 一 种 很 好 ng 
的 方法 可 以 防止 这 种 循环 ， 即 确认 所 有 的 a 


恢复 动作 最 终 都 将 会 使 剩余 输入 串 缩 短 〈 或 者 ， 如 果 到 了 输入 的 末端 ， 使 栈 缩短 )。 
45 自 底 向 上 语法 分 析 


本 节 介 绍 一 种 比较 常用 的 自 底 向 上 分 析 法 ， 称 为 移动 妇 约 分 析 法 。4.6 节 将 讨论 一 种 最 易 
于 实现 的 移动 归 约 分 析 法 ， 称 为 算 符 优先 分 析 法 。 更 一 般 的 移动 归 约 分 析 方 法 叫做 LR 分 析 法 ， 
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将 在 4.7 节 讨论 。LR 分 析 法 可 用 于 许多 自动 的 语法 分 析 器 的 生成 器 。 

移动 归 约 分 析 法 为 输入 串 构 造 分 析 树 时 从 叶 节 点 ( 底 端 ) 开始 ， 向 根 节 点 (顶端 ) 前进 。 
我 们 可 以 把 该 过 程 看 成 是 把 输入 串 w“ 归 约 ” 成 文法 开始 符号 的 过 程 。 在 每 一 步 归 约 
(reduction) 中 ， 如 果 一 个 子 串 和 某 个 产生 式 的 右 部 匹配 ， 则 用 该 产生 式 的 左 部 符号 代替 该 子 
串 。 如 果 每 一 步 都 能 恰当 地 选择 子 串 ， 我 们 就 可 以 得 到 最 右 推导 的 逆 过 程 。 

例 4.21 考虑 文法 

S — aABe 

A > Abc |b 

B > d 

句子 abbcde 可 按 下 述 步骤 归 约 到 5: 


abbcde 

aAbcde 

aAde 

aABe 

Ss 
首先 扫描 abbcde ， 寻 找 能 够 匹配 某 产 生 式 右 部 的 子 串 。 子 串 和 d 都 可 以 匹配 某 产 生 式 右 部 。 
选择 最 左边 的 5p， 用 4 代替 b( 因为 4 是 产生 式 4 一 b 的 左 部 )， 得 到 ah4pcd。 现 在 子 串 Abc. b 
和 d 都 能 匹配 某 产生 式 的 右 部 。 虽 然 是 匹配 某 产 生 式 右 部 的 最 左 子 串 ， 但 我 们 用 4 REF 
B Abc (因为 4 是 产生 式 4 一 Abc 的 左 部 )， 得 到 ahde。 然 后 ， 因 为 B 是 产生 式 B 一 d 的 左 
部 ， 所 以 用 BRE 4， 得 到 a4Be， 再 用 $ RERE, Fe, ROSA abbcde 归 约 到 5。 
事实 上 ， 这 些 归 约 与 如 下 最 右 椎 导 的 逆 过 程 相对 应 : 

S => aABe => aAde => aAbcde => abbcde oO 


4.5.1 AH 

非 形式 地 ， 一 个 符号 串 的 “句柄 ”是 和 一 个 产生 式 右 部 忠 配 的 子 串 ， 而 且 把 它 归 约 到 该 产 
生 式 左 部 的 非 终 结 符 代 表 了 最 右 推导 道 过 程 的 一 步 。 在 很 多 情况 下 ， 匹 配 某 个 产生 式 AOR A 
部 的 最 左 输入 子 串 B 不 是 句柄 ， 因 为 用 这 个 产生 式 归 约 产生 的 串 不 能 归 约 成 开始 符号 。 在 例 
4.21 中 ， 如 果 在 第 二 个 串 aAbcde 中 用 4 代替 思 ， 则 得 到 ah4cde， 而 aAAcde 不 能 归 约 到 $5。 因 
此 ， 我 们 必须 更 精确 地 定义 句柄 。 

形式 地 说 ， 右 句 型 ( 最 右 推导 可 得 到 的 句 型 ) y 的 句柄 是 一 个 产生 式 ASB 以 及 YY 的 一 个 
位 置 ， 在 该 位 置 可 以 找到 串 p, MAH A 代替 B 可 以 得 到 1? 的 最 右 推 导 的 前 一 个 右 名 型 ， 即 如 
Ris > oAwspopw ， 那 么 紧 跟 在 a 后面 的 4 一 B 是 aBw 的 名 
柄 。 句 柄 右 侧 的 串 w 只 包含 终结 符 。 注 意 ， 如 果 文 法 是 具有 二 
义 性 的 ， 则 句柄 不 一 定 惟一 ， 因 为 可 能 有 不 止 一 个 aBw 的 最 右 
推导 。 只 有 文法 没有 二 义 性 时 ， 它 的 每 个 右 句 型 才 有 一 个 句柄 。 

在 上 面 的 例子 中 , abbcde 是 右 句 型, 句柄 是 在 位 置 2 的 A 一 b。 N 
同样 ，a4bcde 也 是 右 句 型 ， 它 的 句柄 是 在 位 置 2 的 4 一 4pc。 如 AN 
果 我 们 能 清楚 地 知道 B 的 位 置 和 产生 式 4 一 B， 有 时 也 可 以 直接 B w 
说 “ 子 串 B 是 xpw 的 句柄 ”。 图 4-20 opw 的 分 析 树 中 

图 4-20 描 述 了 右 句 型 opw 的 分 析 树 中 的 句柄 4 一 B。 该 句柄 的 句柄 4 一 月 
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代表 了 由 一 个 内 节点 和 其 所 有 子 节点 组 成 的 最 左 完全 子 树 。 在 图 4-20 中 ，A 是 最 底层 的 最 左 内 
节点 ， 它 的 所 有 子 节点 都 在 该 树 中 。 在 aBw 中 ， 把 B 归 约 到 A 可 想像 成 “裁剪 句柄 "， 即 把 4 
的 子 节点 从 分 析 树 中 删除 。 


例 4.22 考虑 文法 


(bh E> E+E 

(2) E>- EXE 

(3) E> (E) (4-16) 
(4) E > id 


和 最 右 推导 


E = E+E 
=-E+EX*x E 
rm —_—_—_—_—_— 
=> E+ E * id, 
rm 一 一 一 
=> E + id, * id, 


=> id, + id, * id, 


为 方便 起 见 ， 我 们 给 id 加 以 下 标 ， 并 给 每 个 右 句 型 的 句柄 加 上 下 划 线 。 例 如 ，id 是 右 句 型 
id, + id * id; 的 句 炳 ， 因 为 id 是 产生 式 Eid MAR, HA ERE id 产生 前 一 个 右 句 型 
E+id, * ia。 注意 ， 句 柄 右边 的 串 中 仅 含 终结 符 。 
因为 文法 (4-16) 是 具有 二 义 性 的 ， 存 在 id + id: * ids 的 另 一 个 最 右 推导 
E S E+E 
om E * id 
=> E + E * id, 
=> E + id * id; 


=> id, + id, * id, 


考虑 右 句 型 E+ EE* id;， 在 该 推导 中 +E 是 E+E*id; 的 句柄 ， 而 在 上 一 个 推导 中 id 是 该 右 
句 型 的 句柄 。 

本 例 中 的 两 个 最 右 推导 类 似 于 例 4.6 中 的 两 个 最 左 推导 。 第 一 个 推导 中 * 的 优先 级 高 于 +, 
第 二 个 推导 正好 相反 。 口 


4.5.2 句柄 裁剪 
通过 “裁剪 句柄 ”可 以 得 到 最 右 推导 的 道 过程 。 我 们 从 被 分 析 的 终结 符 串 w 开始 。 如 果 w 
是 文法 的 一 个 句子 ， 那么 w= Y,， 其 中 Y, 是 下 面 的 未 知 最 右 推导 的 第 n 步 右 句 型 ; 


S= yo Soy Sov. SRR R haw 


rm rm rm rm 


为 构造 这 个 推导 的 逆 过 程 ， 需 要 在 y, 中 找到 句柄 B, HAER ALOR, ARRE 了 ， 得 到 第 
n-1 步 的 右 句 型 pi 注意 ， 目 前 我 们 还 不 知道 如 何 找到 句柄 ， 但 很 快 就 会 看 到 寻找 句柄 的 方法 。 

重复 此 过 程 ， 即 在 y 中 找到 句柄 B,-:， 并 对 该 句柄 进行 归 约 得 到 右 句 型 %2。 如 果 继续 此 
过 程 我 们 将 得 到 只 包含 开始 符号 5 的 右 名 型， 那么 就 宣告 分 析 成 功 并 停止 。 在 归 约 过 程 中 所 用 
产生 式 序列 的 逆序 就 是 输入 串 的 最 右 推导 。 


例 4.23 ”考虑 例 4.22 的 文法 (4-16) 和 输入 串 ia + id. * id。 它 的 归 约 序列 如 图 4-21 所 示 。 容 
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易 看 出 ， 该 右 句 型 序列 正好 是 例 4.22 中 第 一 个 最 右 推 导 序 列 的 逆序 。 o 

右 句 型 归 约 产生 式 
id, + id, * id, E ~ id 

E + id, * id; E ~ id 

E + E *id E > id 

E+E*E E >EE 

E+E E>E+E 


图 4-21 由 移动 妇 约 语法 分 析 器 产生 的 归 约 


4.5.3 用 栈 实 现 移动 归 约 分 析 
如 果 使 用 上 述 裁剪 句柄 的 分 析 方法 ， 有 两 个 问题 必须 解决 。 第 一 个 问题 是 定位 右 句 型 中 将 
要 归 约 的 子 串 ; 第 二 个 问题 是 ， 如 果 这 个 子 串 是 多 个 产生 式 的 右 部 ， 如 何 确定 选择 哪 一 个 产生 
式 。 在 讨论 这 些 问题 之 前 ， 首 先 看 一 下 移动 归 约 语法 分 析 器 所 使 用 的 数据 结构 。 
实现 移动 归 约 分 析 的 一 种 简单 方法 是 用 栈 来 保存 文法 符号 ， 用 输入 缓冲 区 来 保存 要 分 析 的 
Bw, FAS 来 标记 栈 底 ， 也 用 它 标 记 输 入 串 的 右 端 。 初 始 ， 栈 是 空 的 ， 串 w 在 输入 缓冲 区 中 ， 
如 下 所 示 : 
栈 输入 
$ w$ 
RED PAST RE MAAS EAR, HAA B 在 栈 顶 出 现 为 止 ， 语 法 分 析 器 再 把 B 归 
约 成 某 个 恰当 的 产生 式 的 左 部 。 语 法 分 析 器 重复 此 过 程 ， 直 到 它 发 现 错误 或 者 栈 中 只 含有 开始 
符号 并 且 输 入 串 为 空 ; 
AR 输入 
$s $ 
进入 这 个 格局 以 后 ， 语 法 分 析 器 停止 并 宣告 分 析 成 功 。 
例 4.24 ”让 我 们 逐步 看 一 下 移动 归 约 语法 分 析 器 在 分 析 输 入 串 id + ia * ids 时 的 动作 ， 文 


法 是 (4-16)， 使 用 例 4.22 的 第 一 种 推导 。 动 作 序列 如 图 4-22 所 示 。 注 意 ， 由 于 文法 (4-16) 对 该 输 
人 有 两 种 最 右 推导 ， 所 以 语法 分 析 器 还 可 能 采取 另 一 个 动作 序列 。 口 




















id, + id, * id3$ | 移动 


(2) $id, + id, * id,$ | 用 E 一 id 归 约 
(3) $E + id, # id,$ | 移动 
(4) SE + id, * id,$ | 移动 
(5) $E + id, * id,$ | 用 E 一 id 归 约 
(6) SE+E * id;$ | 移动 


(7) $E+E* 

(8) $E + E * id, 
(9) SE+E*E 
(10) SE+E 用 E 一 E+ EIA 


$E 接受 


图 4-22 移动 归 约 语法 分 析 器 在 输入 id + id, * id; 上 的 格局 
移动 归 约 语法 分 析 器 的 基本 动作 是 移动 和 归 约 , 但 实际 上 有 四 种 可 能 的 动作 : 移动 、 归 约 、 


移动 
FRE ial 
FARE E +E BA 


$ 






$ 
$ 
$ 
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接受 、 出 错 。 

1. 移动 : 把 下 一 个 输入 符号 移动 到 栈 顶 。 

2. 归 约 : 语法 分 析 器 知道 句柄 的 右 端 已 在 栈 顶 。 它 必须 在 栈 中 确定 句柄 的 左 端 ， 并 选择 正 
确 的 非 终结 符 替代 句柄 。 

3. 接受 ; 语法 分 析 器 宣告 分 析 成 功 。 

[199] 4. 出 错 ; 语法 分 析 器 发 现 了 一 个 语法 错误 ， 并 调用 错误 恢复 程序 进行 错误 处 理 。 

有 一 个 重要 的 事实 说 明 在 移动 归 约 分 析 中 使 用 栈 是 有 道理 的 : 句柄 最 终 总 会 出 现在 栈 顶 ， 
而 不 是 在 栈 的 里 面 。 如 果 我 们 考察 任意 最 右 推导 中 连续 两 步 的 可 能 形式 ， 这 个 事实 将 是 显 而 易 
见 的 。 这 两 步 的 可 能 形式 是 : 


(D) S => QAz => aBByz => aBYyz 
(2) S => aBxAz +> aBxyz => avyxyz 
在 (D) 中 , 4 被 BBy RE, RERAWHIEAA B 由 y RE. EQ, A 仍然 先 被 替换 ， 


但 这 次 只 是 由 终结 符 串 y 来 代替 。 下 一 个 最 右 非 终结 符 B 将 会 在 y 左边 的 某 个 地 方 出 现 。 
让 我 们 反 过 来 看 一 下 (1)， 移 动 归 约 语法 分 析 器 已 经 到 达 下 面 的 格局 : 


栈 输入 
SaBy yz$ 
语法 分 析 器 把 句柄 ? 归 约 成 有 ， 到 达 下 面 的 格局 ， 
R 输入 
$aBB yz$ 


因为 B 是 aBByz 的 最 右 非 终结 符 ，oBByz 的 句柄 的 右 端 不 可 能 出 现在 栈 的 里 面 。 因 此 语法 分 
析 器 把 y 移 人 到 栈 中 ， 进 入 下 面 的 格局 : 


栈 输入 
$aBBy z$ 
其 中 ，BBy 是 句柄 ， 它 被 归 约 成 4。 
让 我 们 再 反 过 来 看 一 下 (2)， 移 动 归 约 语法 分 析 器 到 达 下 面 的 格局 : 
HR 输入 
Say xyz$ 
句柄 Y 在 栈 顶 。 语 法 分 析 器 把 Y 归 约 成 下 以 后 ， 可 以 移 人 xy 以 得 到 在 栈 顶 的 下 一 个 句柄 y: 
HR 输入 
$aBxy 2$ 
现在 语法 分 析 器 可 以 把 ， 归 约 成 4。 
在 这 两 种 情况 下 ， 在 执行 了 一 步 归 约 之 后 ， 语 法 分 析 器 都 必须 移动 零 个 或 多 个 符号 以 便 使 
下 一 个 句柄 进 栈 。 语 法 分 析 器 不 需要 深入 到 栈 中 去 寻找 句柄 。 由 此 可 知 ， 使 用 栈 来 实现 移动 归 


约 语 法 分 析 器 是 非常 有 效 的 。 我 们 还 必须 说 明 怎 样 选 取 动 作 才能 使 移动 归 约 语法 分 析 器 正常 工 
Boo) 作 。 下 边 讨 论 的 算 符 优先 语法 分 析 器 和 LR 语法 分 析 器 就 是 两 种 这 样 的 技术 。 
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4.5.4 活 前 缀 

出 现在 移动 妇 约 语法 分 析 器 栈 中 的 右 句 型 的 前 缀 集合 称 为 活 前 组 。 等 价 的 定义 为 : 活 前 级 
是 右 句 型 的 前 缀 ， 而 且 其 右 端 不 会 超过 该 句 型 的 最 右边 句柄 的 末端 。 根 据 该 定义 ， 我 们 可 以 把 
终结 符 加 到 活 前 绎 的 末尾 得 到 右 句 型 。 因 此， 在 给 定时 刻 只 要 输入 串 中 已 分 析 过 的 那 部 分 能 归 
约 成 活 前 级 ， 就 没有 错误 。 
455 移动 归 约 分 析 过 程 中 的 冲突 

有 些 上 下 文 无 关 文法 不 能 使 用 移动 归 约 分 析 方 法 进行 分 析 。 这 种 文法 的 每 一 个 移动 归 约 语 
法 分 析 器 会 形成 这 样 的 格局 : 根据 栈 中 的 内 容 和 下 一 个 输入 符号 不 能 决定 是 移动 还 是 妇 约 ( 移 
动 - 归 约 冲突 )， 或 不 能 决定 按 哪 一 个 产生 式 进行 归 约 ( 虹 约 - 归 约 冲突 )。 下 面 我 们 会 给 出 属 
于 这 类 文法 的 语法 结构 的 例子 。 从 技术 上 讲 ， 这 些 文法 不 属于 4.7 节 定义 的 LR(k) 类 文法 。 我 们 
称 它们 为 非 LR 文 法 。LR(O 中 的 上 代表 超前 搜索 个 输入 符号 。 编 译 中 使 用 的 文法 通常 都 属于 
LR(1) 类 ， 即 超前 搜索 一 个 输入 符号 。 


例 4.25 二 义 性 文法 一 定 不 是 LR 文法 。 例 如 ， 考 虑 4.3 节 的 文法 (4-7): 


stmt — if expr then stmt 
| if expr then stmt else stmt 
| other 


如 果 移 动 归 约 语法 分 析 器 处 于 格局 

R, 输入 

-+ if expr then stmt else: $ 

无 论 栈 中 if expr then stmt 下 面 是 什么 符号 ， 我 们 都 不 能 判断 if expr then stmt 是 否 为 句柄 ， 这 
里 存在 移动 - 归 约 冲突 。 根 据 输入 中 else 后 的 内 容 ， 也 许 将 if expr then stmt 归 约 成 stmt 是 正 
确 的 ， 或 者 也 许 移动 ese 进 栈 ， 然 后 寻找 另 一 个 stmt 来 完成 if expr then stmt else stmt 的 替换 
是 正确 的 。 因 此 ， 在 这 种 情况 下 我 们 不 能 判断 应 该 移动 还 是 归 约 ， 所 以 这 个 文法 不 是 LR(1) 文 
法 。 一 般 地 说 ， 任 何 二 义 性 文法 都 不 是 LR(R) 文 法 ( 对 任何 k)。 

但 是 ; 我 们 必须 指出 ， 对 移动 归 约 分 析 方 法 进行 简单 的 改造 即 可 分 析 某 些 二 义 性 文法 ， 如 
上 面 的 if-then-else 文法 。 当 我 们 为 包含 上 面 产生 式 的 文法 构造 这 样 的 语法 分 析 器 时 ， 存 在 移 
动 - 归 约 冲 突 ， 对 于 else 或 者 移动 ， 或 者 用 seme expr then simt 归 约 。 如 果 我 们 通过 优先 使 
用 移动 来 解决 这 个 冲突 ， 语 法 分 析 器 就 能 正常 工作 了 。4.8 节 将 讨论 这 种 二 义 性 文法 的 语法 分 
析 器 。 口 


JE LR 出 现 的 另 一 种 常见 的 情况 是 : 知道 了 句柄 ， 但 根据 栈 里 的 内 容 和 下 一 个 输入 符号 不 
足以 判断 在 归 约 中 使 用 哪个 产生 式 。 下 面 的 例子 说 明了 这 种 情况 。 


例 4.26 ”假设 词法 分 析 器 对 任何 标识 符 都 返回 记号 这， 而 不 管 它 是 如 何 使 用 的 。 假 设 语言 
通过 给 出 过 程 的 名 字 及 用 括号 括 起 来 的 参数 表 来 调用 过 程 ， 而 且 数 组 元 素 的 引用 也 采用 同样 的 
语法 。 因 为 数组 引用 中 的 下 标 和 过 程 调用 中 的 参数 的 翻译 是 不 一 样 的 ， 所 以 ， 我 们 用 不 同 的 产 
生 式 来 产生 实 参 表 和 下 标 表 。 我 们 的 文法 应 该 具有 下 面 一 些 产生 式 : 





(1) stmt 一 id( parameter_list ) 

(2) stmt > expr := expr 

(3) parameter_list > parameter_list , parameter 
(4) parameter_list > parameter 


N 
N 
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(5) parameter — id 


(6) expr > id (expr_list ) 
(7) expr — id 

(8) expr_list > expr_list , expr 
(9) expr_list 一 expr 


以 A (I, J) 开始 的 语句 可 能 以 记号 流 id(id, id) 的 形式 呈现 给 语法 分 析 器 。 把 前 三 个 记号 移 
进 栈 后 ， 移 动 归 约 语法 分 析 器 的 格局 是 : 
. 输入 
. -id (id id): 
BA, MATT id 进行 归 约 ， 但 是 按 哪 个 产生 式 归 约 呢 ? 正确 的 选择 是 : 如 果 A 是 过 程 ， 
应 按 产生 式 (5) 归 约 ; 如 果 A 是 数组 ， 应 按 产生 式 (7) 归 约 。 但 栈 中 的 信息 不 能 告诉 我 们 应 按 哪 
个 产生 式 归 约 ， 必 须 使 用 符号 表 中 有 关 4 的 信息 。 
解决 上 述 问题 的 一 种 办 法 是 把 产生 式 (1) 的 记号 id 改 为 procid， 并 且 使 用 更 复杂 - 些 的 词 
法 分 析 器 ， 当 它 识 别 出 作 为 过 程 名 的 标识 符 时 返回 记号 procid。 当 然 ， 这 样 做 要 求 词法 分 析 
器 在 返回 记号 前 要 访问 符号 表 。 
这 样 修改 后 ， 处 理 A (i, j) 时 , 语法 分 析 器 可 能 处 于 格局 
$ 输入 
‘++ procid (id , id) 
或 处 于 前 面 的 格局 。 前 者 用 产生 式 (5 归 约 ， 后 者 用 产生 式 (7) 归 约 。 注 意 ， 栈 中 的 第 三 个 符号 
用 来 决定 归 约 的 产生 式 ， 虽 然 它 本 身 并 不 包含 在 这 个 归 约 中 。 移 动 归 约 分 析 可 以 利用 栈 深 处 的 
信息 来 指导 分 析 。 口 


4.6 算 符 优先 分 析 法 


LR 文法 是 一 大 类 适合 移动 归 约 庄 法 分 析 器 的 文法 。LR 文 法 将 在 4.7 节 中 讨论 详细 讨论 。 然 
而 ， 对 于 一 小 部 分 非常 重要 的 文法 ， 我 们 可 以 很 容易 地 手工 构造 有 效 的 移动 归 约 语法 分 析 器 。 
这 些 文法 具有 下 面 的 性 质 ; 所 有 产生 式 的 右 部 都 不 是 e 或 两 个 相 邻 的 非 终结 符 。 具 有 第 二 个 性 
质 的 文法 称 为 算 符 文法 。 


例 4.27 下 面 是 表达 式 的 文法 : 

E > EAE |(E)| -E | id 

A>+ |-|*|/|t 
它 不 是 算 符 文 法 ， 因 为 右 部 EAE 有 2 个 ( 实际 上 是 3 个 ) 连续 的 非 终结 符 。 然 而 ， 如 果 我 们 用 
A 的 每 个 候选 式 替代 第 一 个 产生 式 中 的 4， 将 得 到 下 面 的 算 符 文法 : 

E > E+E | E-E | EsE|E/E|EtE |(E) | -E | id (4-17) 

现在 我 们 给 出 一 种 易于 实现 的 语法 分 析 技术 ， 即 算 符 优先 分 析 。 历 史上 ， 该 技术 最 初 是 一 
种 处 理 记号 的 技术 ， 而 这 些 记 号 不 是 建立 在 文法 的 基础 上 。 实 际 上 ， 一 旦 我 们 根据 一 个 文法 构 


造 了 一 种 算 符 优先 语法 分 析 器 ， 我 们 就 可 以 忽略 该 文法 ， 栈 中 的 非 终结 符 仅仅 作为 与 这 些 非 终 
结 符 相关 的 属性 的 占 位 符 。 


作为 通用 的 语法 分 析 技 术 ， 算 符 优先 分 析 法 具有 许多 缺点 。 例 如 ， 它 很 难处 理 像 减 号 这 样 
的 记号 ， 因 为 减 号 有 两 个 不 同 的 优先 级 〈 取决 于 它 是 一 元 操作 符 的 还 是 二 元 操作 符 的 ) EE 
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糕 的 是 ， 因 为 要 分 析 的 语言 的 文法 和 算 符 优先 语法 分 析 器 本 身 的 关系 不 是 十 分 紧密 的 ， 所 以 不 
能 肯定 语法 分 析 器 接受 的 就 是 所 期 望 的 语言 。 

然而 ， 由 于 算 符 优先 分 析 技 术 比 较 简单 ， 很 多 编译 器 的 语法 分 析 器 经 常 采用 算 符 优先 分 析 
技术 对 表达 式 进 行 分 析 ， 对 于 语句 和 高 级 结构 的 分 析 则 采用 4.4 节 中 描述 的 递归 下 降 分 析 法 。 
有 些 编译 器 的 语法 分 析 器 甚至 对 整个 语言 都 采用 算 符 优先 技术 进行 语法 分 析 。 

在 算 符 优先 分 析 中 ， 我 们 在 某 些 终结 符 对 之 











KR 含义 
间 定 义 如 下 三 种 优先 关系 : <:、= 和 .>。 这 些 优 a<b 4 的 优先 级 低 于 b 
先 关系 可 用 于 指导 句柄 的 选取 ， 它 们 的 含义 如 右 a=b a 的 优先 级 等 于 b 
表 所 示 。 a:>b a 的 优先 级 高 于 b 





注意 ,这些 关系 类 似 于 算术 关系 “小 于 ”"、“ 等 于 ”和 “大 于 ”， 但 优先 关系 具有 不 同 的 性 
质 。 例 如 ， 对 于 同一 语言 ，a <. b 和 a .> 可 能 同时 成 立 ， 或 者 对 于 某 两 个 终结 符 a Mb, 
a<-bfla=bURa->bYyARMY. | 

有 两 种 常用 的 方法 确定 终结 符 之 间 的 优先 关系 。 第 一 种 方法 是 直觉 主义 方法 ， 即 基于 习惯 
的 操作 符 间 的 结合 规则 和 运算 优先 关系 。 例 如 ， 如 果 * 比 + 具有 更 高 的 优先 级 ， 我 们 可 以 令 + 
<.* 和 x> 成 立 。 在 解决 文法 (4-17) 的 二 义 性 时 将 看 到 这 种 方法 ， 并 且 我 们 可 以 使 用 这 种 方法 
写 出 文法 (4-17) 的 算 符 优先 语法 分 析 器 ( 虽然 一 元 减 会 有 问题 )。 

确定 算 符 优先 关系 的 第 二 种 方法 是 首先 为 语言 构造 无 二 义 性 文法 。 该 文法 在 分 析 树 上 反映 
了 正确 的 结合 规则 和 优先 级 。 对 于 表达 式 来 说 ， 这 项 工作 不 难 ，2.2 节 中 表达 式 的 语法 提供 了 
这 种 实例 。 对 于 二 义 性 的 其 他 来 源 ， 如 else 的 不 匹配 ， 文 法 (4-9) 是 一 个 有 用 的 模型 。 如 果 已 经 
获得 了 无 二 义 性 文法 ， 则 存在 一 种 从 该 文法 构造 算 符 优先 关系 的 机 械 方法 。 这 些 关 系 可 能 是 相 
交 的 ， 而 且 它 们 可 能 分 析 非 该 文法 产生 的 语言 ， 但 是 对 于 标准 算术 表达 式 来 说 ， 实 际 上 很 少 遇 
到 问题 。 这 里 将 不 讨论 优先 级 的 构造 方法 ， 请 参见 Aho and Uliman[1972b]。 

4.6.1 使 用 算 符 优 先 关 系 

优先 关系 主要 用 于 界定 右 句 型 的 句柄 。<: 标记 句柄 的 左 端 ，= 出 现在 句柄 的 内 部 ，.> 标 
记 句 柄 的 右 端 。 假 设 我 们 有 一 个 算 符 文法 的 右 句 型 ， 那 么 “没有 相 邻 的 非 终 结 符 出 现在 产生 式 
右 部 ”意味 着 “ 右 句 型 不 会 有 两 个 相 邻 的 非 终结 符 "。 于 是 ， 我 们 可 以 用 BaBa Ba RBA 
句 型， 这 里 B 是 se (FR) 或 单个 非 终 结 符 ，w 是 单个 终结 符 。 

假设 a; 和 aiw 之 间 只 满足 <. =R :> 中 的 某 一 种 优先 关系 ,用 $ 标记 符号 串 的 两 端 ， 对 所 
有 的 终结 符 b, FEL $ <b 和 了 :> $。 现 在 假设 我 们 从 符号 串 移 走 非 终结 符 ， 并 在 每 两 个 终结 符 
之 间 以 及 两 端的 终结 符 与 $ 之 间 放 上 正确 的 优先 关系 
<. = 或 >， 其 中 $ 标记 符号 串 的 两 端 。 例如， 假设 开始 
时 有 右 句 型 id + id * id 和 图 4-23 所 给 出 的 优先 关系 ， 这 些 关 
系 是 根据 文法 (4-17) 进 行 语法 分 析 所 确定 的 关系 集合 的 子 集 。 
然后 ， 插 人 优先 关系 后 的 符号 串 为 : 





图 4-23 算 符 优先 关系 
$<-id > +<- id > * <-id > $ (4-18) 


例如 ， 由 于 < 是 优先 关系 表 中 行为 $ 列 为 id 的 表 项 ， 所 以 <. 被 插入 在 左 端的 $ 和 id 之 间 。 应 
用 下 面 的 过 程 即 可 发 现 句柄 : 

1. 从 左 端 开始 扫描 串 ， 直 到 遇 到 第 一 个 .> 为 止 。 在 上 面 的 (4-18) 中 ， 它 出 现在 第 一 个 ia 和 
+ 之 间 。 
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2. 向 左 扫 找 ， 跳 过 所 有 的 = ， 直 到 遇 到 一 个 < 为止 。 在 (4-18) 中 ， 我 们 向 左 扫描 到 $。 

3. 句柄 包括 从 第 2 步 遇 到 的 < 的 右 部 到 第 一 个 > 的 左 部 之 间 的 所 有 符号 ， 包 括 介 于 其 间 
或 者 两 边 的 非 终结 符 。 包 括 两 边 的 非 终结 符 是 必要 的 ， 可 以 使 两 个 相 邻 的 非 终结 符 不 会 出 现在 
右 句 型 中 。 在 (4-18) 中 ,句柄 是 第 一 个 id。 

如 果 我 们 正在 处 理 文法 (4-17)， 就 把 id 归 约 为 £。 这 时 ， 我 们 可 以 得 到 右 句 型 + id + id. 
按照 同样 的 步骤 将 剩余 的 两 个 id 归 约 为 E 之 后 ， 可 以 得 到 右 句 型 E + ExE。 现 在 考虑 删除 非 
终结 符 后 的 符号 串 $ + * $。 揪 入 优先 关系 后 ， 我 们 得 到 

$< +< k >$ 
可 以 看 出 ， 句 柄 的 左 端 位 于 + 和 * 之 间 ， 右 端 位 于 * 和 $ 之 间 。 这 些 优先 关系 表明 ， 在 右 句 
型 E+ ExE 中 ,句柄 是 ExE。 注 意 * 两 边 的 EE 也 在 句柄 中 。 

因为 非 终结 符 不 会 影响 语法 分 析 ， 所 以 我 们 不 需要 考虑 区 分 它们 。 我 们 可 以 把 一 个 标记 
“ 非 终结 符 ” 保 存在 移动 归 约 栈 中 ， 作 为 属性 值 的 占 位 符 。 

从 上 面 的 讨论 可 以 看 出 ,为 了 找到 句柄 ， 每 步 都 必须 扫描 整个 右 句 型 。 如 果 我 们 用 栈 存储 
已 看 到 的 输入 符号 ， 并 且 用 优先 关系 指导 移动 归 约 语法 分 析 器 的 动作 ， 情 况 就 不 同 了 。 如 果 栈 
顶 的 终结 符 和 下 一 个 输入 符 之 间 的 优先 关系 是 <. 或 =， 则 语法 分 析 器 移动 ， 表 示 还 没有 发 现 
句柄 的 右 端 ; 如 果 是 .> 关系 ， 就 调用 归 约 。 这 时 语法 分 析 器 已 找到 句柄 的 右 端 ， 而 且 优 先 关 
系 还 能 用 来 在 栈 中 找到 句柄 的 左 端 。 

如 果 一 对 终结 符 之 间 没 有 优先 关系 ( 由 图 4-23 中 的 空白 表 项 指出 ) 成 立 ， 则 表示 检测 出 了 
语法 错误 ， 须 调用 错误 恢复 例 程 。 
下 面 的 算法 可 以 形式 化 描述 上 述 思 






(d) $ ip HA w$ 的 第 一 个 符号 ; 


(2) repeat forever 


想 。 (3) if $ 在 栈 顶 而 且 ip 指向 $ then 
(4) return 
算法 4.5 算 符 优先 分 析 算 法 。 ee ee uit RR mecca ip Bria 
` (5) Sa 上 面 的 终结 从 ， 而 5b 是 ip 所 指 同 的 符号 ; 
输入 : 输入 字符 串 w 和 优先 (6) if a <- baka 二 b then begin 
关系 表 。 (7) 将 b EAR; 
输出 : MR w 是 一 个 句子 ，| (8) ip 指向 下 一 个 输入 符号 ; 
d; 
则 输出 一 个 分 析 树 架子 ， 它 的 所 有 | (9 tse ita -> b then je 归 约 #7 
内 节点 均 由 占 位 非 终 结 符 E 来 标 | (10) Te sees 
oe. , ay 3 
注 ; 否则 ， 指 出 错误 。 (12) until 栈 顶 终结 符 与 最 近 弹 出 的 终结 符 之 间 满 足 < 
方法 : 初始 时 ， 栈 中 放 入 $, (13) else error () 
输入 缓冲 区 放 和 人 w$。 为 了 进行 语 | end 











法 分 析 ， 执 行 图 4-24 的 程序 。 O 


4.6.2 ”从 结合 律 和 优先 级 获得 算 符 优先 关系 

我 们 可 以 以 合适 的 方式 创建 算 符 优先 关系 ， 并 希望 由 它们 指导 的 算 符 优 先 分 析 算 法 能 运行 
正常 。 类 似 于 文法 (4-17) 产 生 的 算术 表达 式 语 言 ， 我 们 可 以 用 下 面 的 启发 式 方法 产生 正确 的 优 
先 关 系 。 注 意 ， 文 法 (4-17) 是 二 义 性 的 ， 右 名 型 可 能 有 多 个 句柄 。 我 们 的 设计 规则 是 选择 恰当 
的 句柄 来 反映 二 元 操作 符 的 结合 律 和 优先 级 。 

1. 如 果 操 作 符 9 比 9: 具有 更 高 的 优先 级 ， 则 0 > 9 和 0< 91 都 成 立 。 例 如 ， 如 果 * 比 + 
有 具有 更 高 的 优先 级 ， 那 么 ，*>+ 和 +<.* BML, DAKAR E+ E» E+ EWR 
达 式 中 ， 中 间 的 Ex*E 是 先 被 归 约 的 句柄 。 


图 4-24 算 符 优先 分 析 算 法 
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2. 如 果 9 和 6 是 同 优先 级 的 操作 符 (可 以 是 同一 个 操作 符 )， 那 么 当 它们 满足 左 结 律 时 ， 
6, -> 9: 和 6.-> 6, 成 立 ; 当 它 们 满足 右 结 合 律 时 ， 0< 0 和 6 <: 0; 成 立 。 例如 ， 十 和 一 WEA 
结合 律 ，+.>+、+.>-、-.>-、-.>+ 同时 成 立 。1 满足 右 结合 律 ，1 < 成立。 这 些 关 系 可 以 确 
保 在 E-E+E P, E-E 会 被 选 为 句柄 ; 而 在 ETETED, RERE T E 会 被 选 为 句柄 。 

3. 对 于 所 有 的 操作 符 6 来 说 , O< id, id .> 96、6 <. (、(<.6、) ,> 6、6.>)，6 .> $、$<.6 均 成 
Wo (二)、$<-(、$<id、(<-(、id:>$、):>$、( <-id、id:>)、):>) 也 都 成 立 。 


这 些 规则 可 以 确保 记 和 (E) 都 会 被 归 约 为 E， 而 且 只 要 $ 作为 左右 两 端的 标记 ， 就 可 能 会 促使 
E $ 之 间 找 到 句柄 。 


例 4.28 ”基于 以 下 假设 ， 图 4-25 给 出 了 文法 (4-17) 的 算 符 优先 关系 〈 空 白 表 示 错 误 项 ): 
1. | 具有 最 高 优先 级 ， 满 足 右 结合 律 。 
2.* 和 /具有 次 最 高 优先 级 ， 满 足 左 结合 律 。 
3.+ 和 =- 的 优先 级 最 低 ， 满 足 左 结合 律 。 
读者 应 当 试 着 查看 一 下 该 表 是 否 能 够 正常 工作 ， 此 处 忽略 了 一 元 减 号 的 问题 。 例 如 ， 当 输 
AX id «(id 1 id )- id /id 时 ， 试 查阅 一 下 图 4-25 所 示 的 这 张 表 。 口 
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图 4-25 算 符 优先 关系 

4.6.3 处 理 一 元 操作 符 

如 果 我 们 有 一 个 类 似 于 CEHE) 的 操作 符 ， 并 且 不 是 二 元 操作 符 ， 那 么 我 们 可 以 把 它 
合并 到 上 面 构造 算 符 优先 关系 的 方案 中 。 假 设 - 是 一 元 前 缀 操作 符 ， 对 于 任何 操作 符 6， 无 论 
是 一 元 的 还 是 二 元 的 ， 均 使 <~ RE. WE = 比 6 的 优先 级 高 ， 则 使 ">8 成 立 ， 否则 -<0 
成 立 。 例 如 , Rok & 优先 级 高 ， 且 & 满 足 左 结合 律 ， 通 过 这 些 规 则 可 以 看 出 ，E&~E&E 等 
OF (E&(AEN&E. 一 元 后 弘 操 作 符 的 规则 类 似 。 

对 于 类 似 于 减 号 这 样 的 操作 符 ( 它 既 是 一 元 前 绷 棵 作 符 又 是 二 元 中 绥 操 作 符 ) 情况 就 不 同 
了 。 即 使 给 一 元 和 二 元 的 减 号 赋予 同样 的 优先 级 ， 图 4-25 中 的 表 也 不 能 正确 分 析 类 似 ia*-id 这 
样 的 输入 。 在 这 种 情况 下 ， 最 好 的 办 法 是 用 词法 分 析 器 来 区 分 一 元 和 二 元 减 号 ， 当 它 看 到 一 元 
的 减 号 时 返回 不 同 的 记号 。 遗 憾 的 是 ， 词 法 分 析 器 不 能 通过 超前 扫描 来 区 分 这 两 者 ， 它 必须 记 
住 前 一 个 记号 。 例 如 ， 在 Fortran 中 ， 如 果 下 一 个 记号 是 操作 符 、 左 括号 、 逗 号 或 赋值 符号 ， 
则 减 号 是 一 元 的 。 
46.4 优先 函数 

使 用 算 符 优先 语法 分 析 器 的 编译 器 不 需要 存储 优先 关系 表 。 在 大 多 数 情况 下 ， 该 表 可 以 用 
两 个 优先 函数 1 和 g 来 表示 。f 和 8 把 终结 符 映射 为 整数 。 对 于 符号 a Ab, HERES A 以 满足 : 

1.f(a) < g (5)， 如 果 a < bo 
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2.f (a) =8 (b)， 如 果 a +b, 
3. f (a) > & (b), 如 果 a > bo 


[208] 这样 a 和 已 之 间 的 优先 关系 就 可 以 通过 F (a) 和 g (b) 之 间 的 数值 比较 来 确定 。 但 是 ， 优 先 矩 阵 


中 的 空白 项 是 模糊 的 ， 因 为 无 论 f(w 和 g (b) 取 何 值 ， 上 面 的 1、2 或 3 总 有 一 项 成 立 。 错 误 检测 
能 力 的 损失 还 没有 严重 到 阻止 使 用 优先 函数 的 程度 。 如 果 在 请 用 归 约 时 没有 发 现 句 柄 ,仍然 会 
发 现 错误 。 

注意 ， 并 不 是 所 有 的 优先 关系 表 都 能 用 优先 函数 来 表示 ; 但 是 ， 在 实际 应 用 中 ， 优 先 函 数 
通常 是 存在 的 。 


例 4.29 图 4-25 的 优先 关系 表 对 应 下 面 的 优先 函数 : 


+/-];x ir] tl c]) lia] $ 
了 | 2 2 4/414/0]6 6 | 0 
glijrl3i3tststolsfo 


例如 ，* <- id, IAF) < 8 (id), ER, BR f (id) > g (id) 意 味 着 id > id, 事实 上 , id Mia 
之 间 并 没有 优先 关系 。 类 伏地 ， 图 4-25 中 的 其 他 空白 项 都 被 某 种 优先 关系 所 代替 。 口 

如 果 优 先 函 数 存在 的 话 ， 下 面 将 给 出 一 种 构造 某 个 算法 优先 表 的 优先 函数 的 简单 算法 。 

算法 4.6 优先 函数 的 构造 。 

WA: 算 符 优先 表 。 i 

输出 : 表示 输入 矩阵 的 优先 函数 ， 或 指出 它 不 存在 。 

方法 : 

1. 为 每 个 终结 符 a 或 $ 创建 符号 f 和 gao 

2. 把 生成 的 符号 按 下 面 的 方式 分 成 尽 可 能 多 的 组 如果 aso, WA 8 在 同一 组 。 注 意 ， 
即使 某 些 符号 之 间 没 有 = 关系 ,我们 也 可 能 不 得 不 把 它们 放 在 同一 组 。 例 如， 如 果 a =b 且 c b, 
那么 和 下 必 在 同一 组 ， 因 为 它们 都 和 g 在 同一 组 。 此 外 ， 如 果 cd, ABE ald 不 成 
ME, fa 0 gy 也 可 能 在 同一 组 。 

3. 构造 一 个 以 (2) 中 的 符号 组 为 节点 的 有 向 图 。 对 任意 的 a Hb, MRa< bd, WWM gs 所 在 
的 组 引出 一 条 边 指向 所 在 的 组 。 如 果 a >b, MA /所 在 的 组 引 一 条 边 指 向 g。 所 在 组 。 注 意 
从 天 到 gs 的 边 或 路 径 意 味 着 f(a) 必 超过 8g (b)， 从 gs 到 所 的 路 意味 着 g (bE f(a). 

4. 如 果 (3) 中 构造 的 图 中 有 环 路 ， 则 不 存在 优先 函数 。 如 果 没 有 环 路 ， 则 将 f (a) 设 为 从 S 
所 在 的 组 开始 的 最 长 路 径 的 长 度 ，g (a) 设 为 从 ga 所 在 的 组 开始 的 最 长 路 径 的 长 度 。 口 


例 4.30 考虑 图 4-23 所 示 的 优先 关系 矩阵 。 
由 于 没有 = 关系 ， 所 以 每 个 符号 所 在 的 组 中 只 
有 它 自 身 。 图 4-26 是 用 算法 4.6 构 造 的 图 。 

由 于 图 中 没有 环 路 ， 所 以 存在 优先 函数 。 
由 于 没有 从 六 和 gs 出 发 的 边 ， 所 以 fS) = g ($) 
= 0。 由 于 从 g 出 发 的 最 长 的 路 径 长 度 是 1， 所 
以 8 (+) = 1; 由 于 从 gia 出 发 的 最 长 路 径 是 从 
gia 到 f x# 到 gy 到 了 到 g, 再 到 所， 所 以 g (id) = 
5。 结 果 ， 得 到 下 面 的 优先 函数 : 图 4-26 表示 优先 函数 的 图 
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46.5 算 符 优先 分 析 中 的 错误 恢复 

算 符 优先 分 析 器 在 语法 分 析 的 过 程 中 ， 能 发 现 以 下 两 种 情况 下 的 语法 错误 : 

1, 如 果 栈 顶 的 终结 符 和 当前 输入 之 间 没 有 优先 关系 。。 

2. 如 果 发 现 句柄 ， 但 句柄 不 是 任何 产生 式 的 右 部 。 

回想 一 下 ， 算 符 优先 分 析 算 法 (算法 4.5 ) 似乎 只 归 约 由 终结 符 组 成 的 句柄 。 然 而 ， 虽然 ”了 [219 
非 终 结 符 是 匿名 处 理 的 ， 但 它们 仍 在 分 析 栈 中 占据 位 置 。 因 此 ， 当 在 我 们 上 面 的 (2) 中 讨论 匹 
配 产生 式 右 部 的 句柄 时 ， 意 味 着 如 果 终结 符 是 这 样 ， 被 非 终 结 符 占据 的 位 置 也 是 这 样 。 

容易 看 出 ， 除 了 上 面 的 (0) 和 (2)， 其 他 情况 下 都 不 能 检测 到 错误 。 为 找到 句柄 的 左 端 ， 按 
图 4-24 的 (10)~(12) 步 向 下 扫描 栈 时 ， 一 定 能 找到 <. ， 因 为 标记 栈 底 的 $ 和 栈 中 任何 紧 挨 着 它 的 符 
号 之 间 都 是 <. 关 系 。 注 意 ， 如 果 图 4-24 中 的 符号 之 间 没 有 < 或 = 关系 ， 则 不 允许 它们 在 栈 中 相 
Spe 这样，(10)~(12) 步 一 定 能 成 功 地 完成 归 约 。 

然而 ， 不 能 因为 我 们 在 栈 中 找到 了 一 个 符号 序列 a<bi 二 bs 三 … =b ， 就 认为 biby…bi BR 
个 产生 式 右 部 的 终结 符 串 。 我 们 在 图 4-24 中 没有 检查 该 条 件 ， 但 是 显然 可 以 这 样 做 。 事 实 上 ， 
如 果 希 望 将 语义 规则 和 归 约 相关 联 ， 就 必须 这 么 做 。 修 改 〈10)~(12) 步 以 确定 归 约 时 哪个 产生 
式 是 句柄 ， 我 们 就 有 机 会 用 图 4-24 的 程序 检测 到 错误 。 
4.6.5.1 归 约 时 的 错误 处 理 

我 们 可 以 把 错误 检测 和 恢复 程序 分 成 几 部 分 。 一 部 分 解决 类 型 (2) 的 错误 。 例 如 ， 该 程序 可 
以 像 图 4-24 的 步 又 (10)~(12) 那样 ， 把 符号 弹出 栈 。 然 而 ， 因 为 没有 用 于 归 约 的 产生 式 ， 所 以 
没有 语义 动作 ， 而 只 是 打印 诊断 信息 。 为 了 确定 打印 什么 诊断 信息 ， 处 理 情况 (2) 的 程序 必须 
确定 被 弹出 的 字符 串 与 哪个 产生 式 的 右 部 相像 。 例 如 ， 假 设 abe 被 弹出 ， 并 且 没 有 哪个 产生 式 
的 右 部 由 a, b, c 和 有 零 个 或 多 个 非 终结 符 组 成 ， 那 么 也 许 我 们 可 以 考虑 是 否 删除 a、b 和 ec 中 的 
一 个 就 可 以 产生 一 个 合法 的 产生 式 右 部 ( 忽略 非 终 结 符 )。 例 如 ， 如 果 有 一 个 右 部 为 aEcE, W 
可 以 给 出 下 面 的 诊断 信息 : 


illegal bon line (包含 bp 的 行 ) 


我 们 也 可 以 考虑 改变 或 插入 一 个 终结 符 。 如 果 abEdc 是 一 个 产生 式 的 右 部 ， 则 可 以 给 出 下 面 的 
诊断 信息 : 
missing don line (包含 c 的 行 ) 
我 们 也 可 能 发 现 对 于 某 个 右 部 ， 终 结 符 的 顺序 正确 ， 但 非 终结 符 的 模式 不 对 。 例 如 ，abc 


被 弹出 栈 并 且 在 它 的 中 则 和 两 边 均 没 有 非 终结 符 ， 而 且 abe 不 是 某 产生 式 的 右 部 ,而 aEbe 是 ， 
则 可 以 给 出 下 面 的 诊断 信息 : 211 


missing Eon line (包含 5 的 行 ) 


这 里 的 E 代表 由 非 终结 符 E 所 表示 的 一 个 适当 的 语法 类 型 。 例 如 ， 如 果 a,b 或 c 是 操作 符 ， 
则 可 能 代表 “表达 式 ”; WMR a 是 类 似 证 这 样 的 关键 字 ， 则 可 能 代表 “条 件 "。 


O 在 使 用 优先 函数 表示 优先 关系 表 的 编译 器 中 ， 这 种 错误 源 的 检测 可 能 不 可 用 。 
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- 般 地 ， 当 没有 发 现 的 句柄 不 是 任何 产生 式 的 右 部 时 ， 要 给 出 合适 的 诊断 信息 ， 甚 困难 在 
于 图 4-24 的 (10)~(12) 步 是 否 弹出 有 限 或 无 限 数目 的 字符 串 。 图 4-24 的 (10)~(12) 弹出 的 任何 字符 
E bibs…bi 在 相 邻 的 符号 间 必 须 满足 = 关系 ， 即 by tb = 二 bi 。 如 果 算 符 优 先 表 告 诉 我 们 仅 
由 有 限 数目 的 终结 符 序列 满足 = 关系 ， 则 可 以 用 枚 举 法 处 理 这 些 串 。 对 于 每 个 这 样 的 串 x, R 
们 可 以 事先 确定 一 个 具有 最 小 距离 的 字符 串 y, y 是 某 个 产生 式 的 右 部 ， 并 给 出 诊断 信息 来 暗 
PARARE y 时 却 找到 了 xo 

确定 图 4-24 的 (10)~(12) 步 能 够 弹出 的 所 有 字符 串 是 很 容易 的 ， 其 方法 是 构造 一 个 有 向 图 ， 
图 的 节点 表示 终结 符 ， 当 日 仅 当 a =b 时 ， 从 a 到 b 有 一 条 边 。 沿 着 图 上 各 路 径 的 节点 标记 所 形 
成 的 字符 串 就 是 图 4-24 的 (10)~(12) 步 能 够 弹出 的 字符 串 。 路 径 可 能 包含 单个 节点 。 然 而 ， 对 某 
个 输入 ， 为 了 能 够 弹出 515，…b:， 必 须 有 一 个 符号 a (可 能 是 $) 使 得 acb, bi 称 为 起 点 ; 同时 
也 必须 有 一 个 符号 c ( 可 能 是 $ ) 使 得 be> c, bR So RARA RAAH, E bibb 
成 为 被 弹出 的 符号 序列 。 如 果 从 起 点 到 终点 的 路 径 中 有 环 路 存在 ， 则 有 可 能 弹出 无 限 个 串 ， 否 
则 只 能 弹出 有 限 个 串 。 


例 4.31 让 我 们 重新 考虑 文法 (4-17): 

E > E+E |E-E|E*E | E/E |E tE |(E) | -E | id 
该 文法 的 优先 矩阵 如 图 4-25 所 示 ， 其 有 向 图 如 图 4-27 所 示 。 图 中 只 有 一 条 边 ， 因 为 只 有 左右 括 
号 间 才 存在 = 关系 。 除 了 右 括 号 以 外 所 有 的 节点 都 是 起 点 ， 除 了 左 括号 以 外 所 有 的 节点 都 是 终 
点 。 于 是 ， 从 起 点 到 终点 长 度 为 1 的 路 径 是 +，-，*，/，id 以 及 1 ， 长 度 为 2 的 路 径 是 从 〈 到) 
的 路 径 。 路 径 的 数目 有 限 ， 而 且 每 个 都 与 文法 中 某 个 产生 式 右 部 的 终结 符 串 相对 应 。 于 是 ， 归 
约 的 错误 检查 程序 只 需 检查 出 现在 被 归 约 的 终结 符 串 间 的 非 终结 符 标 记 的 真子 集 。 检 查 程 序 进 
行 如 下 检查 : 

1. 如 果 +、-、*、/ 或 1 被 归 约 ， 则 检查 两 边 是 否 有 非 终结 符 出 现 。 如 果 没 有 ， 输 出 诊断 
信息 “missing operand”. 

2. WR id 被 归 约 ， 检 查 两 边 是 否 有 非 终结 符 出 现 。 如 果 有 ， 输 出 警告 “missing 
operator’. 

3. WR 0 被 归 约 ， 检 查 两 个 括号 中 间 是 否 有 非 终 结 符 出 现 。 如 果 没 有 ， 输 出 警告 “no 
expression between parentheses”, 

除 此 之 外 ， 还 要 检查 是 否 有 无 非 终结 符 出 现在 括号 对 的 任何 一 边 ， 如 果 是 ， 给 出 和 (2) 一 样 
的 诊断 信息 。 | 口 
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图 4-27 图 4-25 中 的 优先 矩阵 所 对 应 的 图 


如 果 图 4-24 的 (10)~(12) 能 够 弹出 无 限 个 字符 串 ， 则 错误 信息 不 能 用 枚 举 法 列 出 。 我 们 可 以 
使 用 通用 程序 来 确定 是 否 有 某 个 产生 式 的 右 部 与 弹出 的 字符 串 接近 〈 即 距离 是 1 或 2， 此 处 的 距 
离 根据 插入 、 删 除 或 修改 的 记号 数 而 不 是 字符 数 来 计算 的 )。 如 果 有 ， 则 在 “这 个 产生 式 是 欲 
寻找 的 产生 式 ” 的 假设 下 ， 给 出 一 个 特定 诊断 信息 。 如 果 没 有 产生 式 的 右 部 与 弹出 的 字符 串 接 
近 ， 则 给 出 一 条 一 般 的 诊断 信息 “当前 行 有 错误 ”。 
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4.6.5.2 处 理 移动 归 约 错误 

下 面 我 们 讨论 算 符 优先 语法 分 析 器 检测 错误 的 其 他 方法 。 如 果 根 据 优先 年 阵 决定 符号 移动 
还 是 妇 约 ( 图 4-24 的 第 6 行 和 第 9 行 )， 有 时 会 发 现 栈 顶 符号 和 第 一 个 输入 符号 间 没 有 优先 级 关 
系 。 例 如 ， 假 设 a 和 5 是 两 个 相 临 栈 项 符号 ,b ERK, 和 d 是 接 下 来 的 两 个 输入 符号 ， 且 
b AM c 之 间 没 有 优先 关系 。 为 恢复 错误 ， 必 须 修改 栈 、 输 入 或 者 两 者 都 修改 。 我 们 可 以 改变 符 
号 、 在 输入 或 栈 中 插入 符号 或 者 从 输入 或 栈 中 删除 符号 。 如 果 改 变 或 插入 符号 ， 必 须 小 心 ， 以 
免 陷 入 死 循环 。 例 如 ， 在 输入 的 前 端 不 断 地 插入 符号 而 不 能 归 约 或 移动 任何 插 人 的 符号 ， 就 可 
能 会 造成 死 循 环 。 

一 种 不 会 陷 和 人 死 循环 的 方法 是 确保 在 恢复 后 能 够 把 当前 输入 符号 移动 进 栈 ( 如 果 当 前 符号 
是 $， 确 保 不 会 往 输入 中 插入 符号 ， 且 栈 最 终 会 被 缩短 )。 例 如， 假设 ab ERE, cd 是 输入 ， 
WR asc (<M “<M="), 我们 把 bp 从 栈 里 弹出 。 男 一 种 选择 方案 是 : 如 果 b sd, M 
输入 中 删除 c。 第 三 种 选择 方案 是 找到 某 个 符号 e， 使 得 三 .e 大 <， 在 输入 字符 串 中 把 e 插 到 
c 的 前 面 。 更 一 般 地 ， 如 果 找 不 到 单个 符号 插入 ， 我 们 可 以 揪 人 符合 如 下 条 件 的 一 串 符号 : 


b<'e1<eys Se, Sc 


总 之 ， 所 选择 的 方案 应 该 能 够 反映 出 编译 器 设计 者 面 对 每 种 可 能 出 现 的 错误 的 直觉 。 

对 于 优先 矩阵 中 的 每 个 空白 项 ， 我 们 必须 指定 一 个 错误 恢复 程序 ， 而 且 同 一 程序 可 用 在 多 
个 地 方 。 这 样 ， 当 语法 分 析 器 在 图 4-24 的 步骤 (6) 发 现 a 和 b 之 闻 没 有 优先 关系 时 ， 就 可 以 找到 
指向 相应 错误 恢复 程序 的 指针 。 


例 4.32 再 次 考虑 图 4-25 的 优先 矩阵 。 在 图 4-28 中 ， 我 们 给 出 了 具有 一 个 或 多 个 空白 项 的 
行 和 列 ， 并 将 错误 处 理 程序 的 名 字 填 在 空白 处 。 
这 些 出 错 处 理 程序 的 主旨 如 下 : 
cel: /* 缺少 整个 表达 式 时 调用 */ 
把 id 插入 到 输入 字符 串 ; 
输出 诊断 信息 “missing operand”。 
。e2: /* 表达 式 以 右 括号 开始 时 调用 */ 图 4 28 带 有 错误 项 的 算 符 优先 算 阵 
从 输入 中 删 掉 ); 
输出 诊断 信息 “unbalanced right parenthesis”, 
。e3: /* id 或 ) 后 面 跟随 id 或 (时 调用 */ 
把 + 插入 到 输入 字符 串 ; 
输出 诊断 信息 “missing operator”. 
ced: /* 表达 式 以 左 括号 结束 时 调用 */ 
从 栈 中 弹出 (; 
输出 诊断 信息 “missing right parenthesis”. 
下 面 让 我 们 看 一 看 错误 处 理 机 制 如 何 处 理 错误 输入 字符 串 id + )。 语 法 分 析 器 的 第 一 个 动 
作 是 把 id 移动 进 栈 ， 并 将 其 归 约 为 E (我 们 还 是 用 EE 作为 栈 中 的 匿名 非 终结 符 )， 然 后 移 进 +， 
现在 的 格局 是 : 





栈 输入 
$E+ )$ 


因为 +->)， 调 用 归 约 ， 旬 柄 是 +。 错 误 检 查 程 序 将 进行 归 约 时 的 错误 检测 ， 检 查 + 的 左右 是 否 有 
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E, RRA DRE, HBR “missing operand”， 并 进行 归 约 。 现 在 的 格局 为 ; 

R 输入 

$E $ 
$ 和 ) 之 间 没 有 优先 关系 ， 而 且 图 4-28 中 与 这 对 符号 对 应 的 项 是 e2。 程 序 e2 被 调用 并 给 出 诊断 
信息 “unbalanced right Parenthesis”， 然 后 从 输入 中 删 掉 右 括号 ， 语 法 分 析 器 最 后 
的 格局 为 : 

栈 输入 

$E $ 口 
4.7 LR 语法 分 析 器 


本 节 介 绍 一 种 有 效 的 自 底 向 上 语法 分 析 技 术 。 它 适用 于 一 大 类 上 下 文 无 关 文法 的 语法 分 析 。 
这 种 技术 叫做 LRO 分 析 法 ，L 指 的 是 从 左 向 右 扫描 输入 字符 串 ，R 指 的 是 构造 最 右 推导 的 逆 
WH, k 指 的 是 在 决定 语法 分 析 动 作 时 需要 向 前 看 的 符号 个 数 。( 昌 省略 时 ， 假 设 k 是 1。LR 分 
析 富 有 吸引 力 的 原因 有 以 下 几 点 : 

， LR 语法 分 析 器 能 识别 几乎 所 有 能 用 上 下 文 无 关 文 法 描述 的 程序 设计 语言 的 结构 。 

"。LR 分 析 法 是 已 知 的 最 一 般 的 无 回溯 移动 归 约 语法 分 析 法 ， 而 且 可 以 和 其 他 移动 归 约 分 析 

法 一 样 被 有 效 地 实现 。 

。LR 分 析 法 分 析 的 文法 类 是 预测 分 析 法 能 分 析 的 文法 类 的 真 超 集 。 

。 在 自 左 向 右 扫描 输入 符号 串 时 ，LR 语法 分 析 器 能 及 时 发 现 语法 错误 。 

这 种 分 析 方法 的 主要 缺点 是 ， 对 典型 的 程序 设计 语言 文法 ， 手 工 构造 LR 语 法 分 析 器 的 工 
作 量 太 大 ， 因 而 需要 专门 的 工具 ， 即 LR 语法 分 析 器 的 生成 器 。 幸 好 有 许多 这 样 的 生成 器 是 可 
用 的 。 我 们 将 在 4.9 节 讨论 其 中 的 一 个 ， 即 Yace 的 设计 和 使 用 。 有 了 这 种 生成 器 ， 只 要 写 出 上 
下 文 无 关 文 法 ， 就 可 以 用 它 自 动 生成 该 文法 的 语法 分 析 器 。 如 果 文 法 有 二 义 性 或 有 其 他 难以 自 
左 向 右 分 析 的 结构 ， 这 种 生成 器 能 够 识别 这 些 结构 ， 并 向 编译 器 设计 者 报告 。 

在 讨论 完 LR 语法 分 析 器 的 操作 后 ， 我 们 将 给 出 三 种 构造 LR 分 析 表 的 方法 。 第 一 种 方法 
称 为 简单 LR 方法 (简称 SLR )， 它 最 容易 实现 ， 但 功能 也 最 弱 。 对 某 些 文法 ， 另 外 两 种 方法 
能 成 功 地 产生 语法 分 析 表 ,但 用 它 却 会 失败 。 第 二 种 方法 称 为 规范 的 LR 方法 ， 它 的 功能 最 强 ， 
代价 也 最 高 。 第 三 种 方法 叫做 向 前 看 的 LR 方法 ( 简称 LALR )， 其 功能 和 代价 介 于 前 两 者 之 间 。 
LALR 方 法 可 用 于 大 多 数 程序 设计 语言 的 文法 ， 并 且 可 以 高 效 地 实现 。 在 本 节 的 后 面 将 讨论 LR 
语法 分 析 表 的 压缩 技术 。 
4.7.1 LR 语法 分 析 算 法 

LR 语 法 分 析 器 的 模型 如 图 4-29 所 示 ， 它 是 由 输入 、 输 出 、 栈 、 驱 动 程序 以 及 包含 动作 
(action ) 和 转移 (goto) 两 部 分 的 语法 分 
析 表 构成 的 。 驱 动 程序 对 所 有 的 LR 语法 
分 析 器 都 是 一 样 的 ， 不 同 的 语法 分 析 器 只 
是 语法 分 析 表 有 所 不 同 。 分 析 程 序 每 次 从 
输入 缓冲 区 读 和 一 个 符号 ， 并 使 用 栈 来 存 
储 形 如 soXISsi X252 Xas AIR, HP sn ERR TN 
顶 ,X; 是 文法 符号 ，s; 是 称 为 状态 的 符号 ， 
每 个 状态 符号 概括 了 栈 中 位 于 它 下 面 的 信 


息 。 栈 顶 的 状态 符号 和 当前 的 输入 符号 用 图 4-29 LR 语法 分 析 器 模型 


输出 
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来 检索 语法 分 析 表 ， 以 决定 移动 归 约 分 析 的 动作 。 在 实际 实现 中 ， 文 法 符号 不 必 出 现在 栈 里 ， 
不 过 我 们 在 讨论 中 总 是 包含 它们 ， 以 帮助 解释 LR 语法 分 析 器 的 行为 。 

语法 分 析 表 由 动作 函数 action MB BM goto 两 部 分 组 成 。 驱 动 LR 语法 分 析 器 的 程序 
工作 如 下 : 它 根据 栈 顶 状态 s, 和 当前 输入 符号 a 访问 action[sn, al, El sm 和 a; 所 对 应 的 语法 
分 析 表 项 的 动作 部 分 ， 可 能 的 动作 如 下 : 

* 按 文法 产生 式 4 一 B 归 约 。 

"接受 。 

“出 错 。 

函数 goto 以 状态 和 文法 符号 为 参数 ， 产 生 一 个 状态 。 我 们 将 会 看 到 ， 用 SLR、 规 范 的 LR 
或 LALR 方法 从 文法 G 构造 的 语法 分 析 表 的 goto 函数 是 识别 G 的 活 前 缀 的 确定 有 穷 自 动机 的 
转换 函数 。 回 想 一 下 ， 文 法 G 的 活 前 级 是 右 句 型 的 前 级 ， 并 且 它 不 会 超过 句柄 的 最 右 端 ， 所 
以 它 可 以 出 现在 移动 归 约 语法 分 析 器 的 栈 顶 。 这 个 确定 有 穷 自 动机 的 初始 状态 是 初始 时 置 于 
LR 语法 分 析 器 栈 中 的 状态 。 

LR 语法 分 析 器 的 格局 是 一 个 如 下 形式 的 二 元 组 ， 它 的 第 一 个 分 量 是 栈 的 内 容 ， 第 二 个 分 
量 是 尚未 处 理 的 输入 : 

(so Xi S1 X2 52 Xm Sm, Gi dis, '' * an$) 
这 个 格局 代表 下 面 的 右 句 型 
XIX2 Xm Gailit ap 


由 此 可 以 看 出 ， 它 本 质 上 和 一 般 的 移动 - 归 约 分 析 器 相同 ， 只 是 栈 中 新 加 了 一 些 状 态 。 

语法 分 析 器 的 下 一 个 动作 是 用 当前 输入 符号 a; 和 栈 顶 状态 sn 查询 语法 分 析 表 的 表 项 
action[sm，a;]。 四 种 不 同 的 移动 所 引起 的 格局 变化 如 下 : 

1. WR action[sm, a;]=“ 移 动 状态 s 进 栈 "， 语 法 分 析 器 执行 移动 操作 ， 进 入 下 面 的 格局 : 

(so Xi S1 X232 0 Xm Sm ai Ss, di4) °° + GAS) 

这 里 ， 语 法 分 析 器 把 当前 输入 符号 a; 和 下 一 个 状态 s ( 它 在 action[sm, a ] 中 给 出 ) 都 移 进 栈 ; 
ain RA 当前 输入 符号 。 

2. 如 果 action [Sm a] =“ 按 文法 产生 式 4 一 B 归 约 ”， 语 法 分 析 器 执行 归 约 操作 ， 进 入 下 面 
的 格局 : 


{so XI 5, X2S2 aa "Xm Sm-r A S, Qi @Q@j+zp °° ` a,$) 


其 中 ，s = gotols,-,, A], r 是 产生 式 右 部 B 的 长 度 ， 在 此 ， 语 法 分 析 器 首先 从 栈 中 弹出 2r 
个 符号 ， 分 别 为 r 个 状态 符号 和 r 个 文法 符号 (这 些 文法 符号 刚好 匹配 产生 式 的 右 部 B), 
栈 顶 为 状态 sw -，。 然 后 ， 语 法 分 析 器 把 产生 式 左 边 的 符号 A 和 goto[sm -,, A] = s 压 人 栈 。 
执行 归 约 操作 时 ， 当 前 输入 符号 没有 变化 。 对 于 我 们 要 构造 的 LR 语法 分 析 器 ， 从 栈 中 弹 
出 的 文法 符号 序列 Xm-; ,1…X 总 是 能 匹配 归 约 式 的 右 部 Bo LR 语法 分 析 器 的 输出 由 归 约 时 
执行 的 与 归 约 产生 式 有 关 的 语义 动作 产生 ， 现 在 ， 我 们 暂且 认为 输出 就 是 打印 归 约 中 使 用 
的 产生 式 。 

3. 如 果 action[s,, ai] =“ 接 受 ”, 分 析 完 成 。 

4. 如 果 action(s, ai] =“ 出 错 "， 语 法 分 析 器 发 现 错误 ， 调 用 错误 恢复 程序 。 
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下 边 是 LR 分 析 算 法 的 小 结 。 所 有 的 LR 语法 分 析 器 都 以 这 种 方式 工作 ， 只 是 语法 分 析 表 


的 action 和 goto 域 的 信息 有 所 不 同 。 


算法 4.7 LR 分 析 算 法 。 

输入 : 文法 G 的 LR 语法 分 析 表 和 输入 串 wo 

输出 : 如果 w 属于 LG), Witt w 的 自 底 向 上 分 析 ， 和 否则 报错 。 

方法 : 首先 ， 把 初始 状态 so 放 在 语法 分 析 器 栈 顶 ， 把 w$ 放 在 输入 缓冲 区 ; 然后 ， 语 法 分 


析 器 执行 图 4-30 的 程序 ， 直 到 遇见 接受 或 出 错 动作 为 止 。 口 


D ET 
(3) T>T*F 
(4) T>F 0 
(5) F-(E) 
© F id 
图 4-31 给 出 了 G 的 LR 语 法 分 析 表 ， 包 括 动 
作 函 数 和 转移 函数 。 
各 个 动作 的 编码 的 含义 是 : 


栈 。 


S ip 指向 w$ 的 第 一 个 符号 ; 
repeat forever begin 
Ss 是 栈 顶 的 状态 ，a 是 ip 所 指向 的 符号 ; 
if action[s, a] =“ 移 动 状 态 ;' 进 栈 ”then begin 
把 a 和 s’ RK ARTA; 
让 ip 指向 下 一 个 输入 符号 


end 


else if action[s, a] =“ 按 文法 产生 式 A4 一 了 B 归 约 ” then begin 


从 栈 顶 弹出 2* | B | 个 符号 ; 
令 * 是 现在 的 栈 顶 状态 ; 
把 4 和 8gofo[s, 4] 依次 压 人 栈 ; 
a 输出 产生 式 4 一 
en 


end if action [s, a] = “HZ” then 
return 
else error() 





图 4-30 LR 分 析 程 序 


例 4.33 ”下面 是 含有 二 元 操作 符 + 和 * 的 算术 表达 式 的 文法 : 
D E*E+T 





1. si 表示 把 当前 输入 符号 和 状态 i 压 进 


二 Soo 人 NO- 





J 


2.5 表示 按 第 j 个 产生 式 归 约 。 


3. acc 表示 接受 。 、 : 
图 4.31 表达 式 文法 的 语法 分 析 表 
4. 空白 表示 出 错 。 MRAN 


注意 ， 对 于 终结 符 ge， 状 态 转移 动作 goto [s, a] 可 以 在 表 的 动作 表 项 action[s, 四 中 找到 ， 所 


以 转移 域 中 仅 给 出 非 终结 符 A 的 gotols, 4]。 另 外 ,我 们 还 没有 解释 图 4-31 中 的 表 项 都 是 怎么 
确定 的 ， 这 个 问题 稍 后 讨论 。 


给 定 输入 字符 串 idxida+ida， 栈 和 输入 内 容 的 变化 序列 如 图 4-32 所 示 。 例 如 ， 在 第 一 行 ， 
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LR 语 法 分 析 器 处 于 状态 0, id 是 第 一 个 输入 符号 。 图 4-31 中 第 0 行 和 第 id 列 对 应 的 动作 域 是 s5, 
其 含义 是 id 进 栈 ， 并 把 状态 5 压 人 栈 顶 。 图 4-32 的 第 二 行 给 出 了 执行 动作 s5 后 的 格局 : 第 一 
输入 记号 id 和 状态 5 HR, 把 id 从 输入 字符 串 删除 。 

然后 ，* 成 为 当前 输入 符号 ， 状 态 5 遇见 输入 * 的 动作 是 按 F id 归 约 : 弹出 栈 顶 的 两 
个 符号 (一 个 状态 符号 和 一 个 文法 符号 )， 栈 顶 为 状态 0。 因 为 goto[0, F) 是 3， 语 法 分 析 器 把 
玉 和 3 压 人 栈 顶 ， 到 达 第 3 行 所 示 的 格局 。 我 们 可 以 类 似 地 确定 剩余 的 动作 。 口 









id * id + id $ 
* id + id $ 




















移动 进 栈 


(2) 0id 5 用 F > id 归 约 


BG) OF3 x id + id$ |j T> FJ 
(4) 072 * id + id $ | 移动 进 栈 
(5) OT2*7 id + id $ | 移动 进 栈 


(6) OT2*7id 5 + id$ | 用 下 一 刘 归 约 


(7) OT2*7F 10 + id$ | 用 7 了 一 T* 下 归 约 
(8) 072 +id$ |FRRE> TIA 
(9) OEI + id S$ | 移动 进 栈 


(10) OE1+6 

(11) O£1+ 6id5 
(12) OEF1+ 6F3 
(13) OE1+6T9 
0E1 


id $ | 移动 进 栈 


Fl F > id 归 约 

用 T 一 FF 归 约 

用 E 一 E+T 归 约 

接受 
图 4-32 LR 语法 分 析 器 在 输入 id*id+id 上 所 做 的 移动 

4.7.2 LR 文法 

现在 我 们 讨论 怎样 为 一 个 给 定 的 文法 构造 LR 语法 分 析 表 。 给 定 文法 G， 如 果 我 们 能 为 G 
构造 出 LR 语法 分 析 表 ， 则 称 G 是 LR 文法 。 很 多 上 下 文 无 关 文 法 不 是 LR 文法 。 但 是 ， 典 型 
的 程序 设计 语言 的 结构 一 般 都 可 以 避免 非 LR 文法 。 直 观 地 ， 为 了 使 一 个 文法 是 LR 文法 ， 只 
要 保证 在 句柄 出 现在 栈 项 时 ， 自 左 向 右 扫描 的 移动 归 约 分 析 器 能 够 及 时 地 识别 它 。 

LR 语法 分 析 器 不 需要 扫描 整个 栈 就 可 以 知道 什么 时 候 句 柄 出 现在 栈 顶 。 栈 顶 的 状态 符号 
包含 了 所 需要 的 一 切 信息 。 一 个 非常 重要 的 事实 是 : 如 果 仅 知 道 栈 中 的 文法 符号 就 可 以 识别 名 
柄 ， 则 存在 一 个 有 穷 自动 机 ， 通 过 自 顶 向 下 读 栈 中 的 文法 符号 自动 机 就 能 确定 栈 顶 的 句柄 (如 
果 有 的 话 )。LR 语法 分 析 表 的 goto 函数 实质 上 就 是 这 样 的 有 穷 自 动机 。 不 过 ， 这 个 有 穷 自动 
机 不 需要 每 次 移动 都 读 栈 。 如 果 识 别 句柄 的 有 穷 自 动机 自 底 向 上 读 栈 中 的 文法 符号 ， 栈 顶 所 存 
的 状态 符号 正好 是 这 个 自动 机 所 进入 的 状态 。 于 是 ，LR 语 法 分 析 器 从 栈 顶 的 状态 即 可 确定 它 
需要 从 栈 中 了 解 的 一 切 。 

能 够 用 来 帮助 LR 语 法 分 析 器 作出 移动 归 约 决定 的 另 一 个 信息 源 是 下 个 输入 符号 。 我 们 
实际 上 感 兴 趣 的 是 上 = 0 或 上 = 1 时 的 情况 。 这 里 我 们 仅 讨论 k<1 的 情况 。 例 如 ， 图 4-31 中 的 
动作 表 只 需要 向 前 看 一 个 符号 。 每 步 需 要 向 前 看 上 个 符号 的 LR 语 法 分 析 器 所 分 析 的 文法 叫做 
LR(k) Xi. 

LL 文法 和 LR 文法 之 间 有 明显 的 区 别 。 对 于 LRO 文法 ， 我 们 必须 通过 向 前 看 k 个 输入 
符号 就 能 够 知道 一 个 产生 式 的 右 部 所 能 推导 出 的 所 有 字符 串 ， 进 而 识别 出 这 个 产生 式 右 部 的 出 
现 。 这 个 要 求 远 不 如 LL(K) 那么 严格 。LL(k) 文法 要 求 只 要 看 到 了 产生 式 右 部 推出 的 前 上 个 符 
号 后 就 能 识别 出 用 于 归 约 的 产生 式 。 所 以 LR 文法 比 LL 文法 描述 的 语言 更 多 。 
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4.7.3 构造 SLR 语 法 分 析 表 

现在 我 们 来 讨论 怎样 由 文法 构造 LR 分 析 表 。 我 们 将 给 出 三 种 方法 ， 它 们 的 能 力 和 实现 的 
难 易 程 度 各 不 相同 。 第 一 种 方法 被 称 为 简单 LR， 即 SLR。SLR 的 功能 最 弱 ， 但 最 易 实现 。 根 据 
这 种 方法 构造 的 语法 分 析 表 叫做 SLR 语 法 分 析 表 。 使 用 SLR 语 法 分 析 表 的 LR 语法 分 析 器 叫做 
SLR 语 法 分 析 器 。 能 够 为 之 构造 SLR 语 法 分 析 器 的 文法 叫做 SLR 文 法 。 另 外 两 种 方法 通过 用 向 
前 看 信息 增强 了 SLR 文 法 。 所 以 SLR 方 法 是 研究 LR 语法 分 析 的 理想 起 点 。 

文法 G 的 LR(0) 项 目 ( 简称 项 目 ) 是 在 G 的 产生 式 右 部 的 某 处 加 点 的 产生 式 。 例 如 ， 产 生 
式 A 一 XYZ 可 以 生成 如 下 四 个 项 目 ， 


A > ‘XYZ 
A > XYZ 
A + XYZ 
221 A > XYZ- 


产生 式 4 一 “只 生成 一 个 项 目 4 一 :。 项 目 可 以 用 一 对 整数 来 表示 : 第 一 个 数 表示 产生 式 的 号 码 ， 
第 二 个 数 表 示 点 的 位 置 。 直 观 地 ， 项 目 表示 : 在 语法 分 析 过 程 中 的 某 一 时 刻 ， 我 们 已 经 看 见 了 
一 个 产生 式 所 能 推出 的 字符 串 的 多 大 部 分 。 例 如 ， 上 面 第 一 个 项 目 表 示 我 们 希望 下 一 步 从 输入 
中 看 见 由 XYZ 推出 的 字符 串 ， 第 二 个 项 目 表 示 我 们 刚 从 输入 中 看 见 了 由 X 推 出 的 字符 串 ， 下 面 
希望 看 见 由 YZ 推出 的 字符 串 。 

SLR 方 法 的 主要 思想 是 首先 从 文法 构造 出 识别 活 前 缀 的 确定 有 穷 自 动机 。 我 们 把 项 目 划 分 
成 一 组 集合 ， 这 些 集合 对 应 SLR 语 法 分 析 器 的 状态 (也 是 DFA 的 状态 。 译 者 注 )。 项目 可 
以 看 成 是 识别 活 前 缀 的 NFA 的 状态 ， 而 “项 目 分 组 ”就 是 3.6 节 中 讨论 的 子 集 构造 法 。 

被 称 为 规范 LR(0) 项 目 集 族 的 LR(0) 项 目 集合 族 是 构造 SLR 语 法 分 析 表 的 基础 。 为 了 构造 文 
法 的 规范 LR(0) 项 目 集 族 ， 我 们 需要 定义 拓 广 文法 的 概念 ， 并 引入 闭 包 ( closure ) 运算 和 转移 
函数 (goto), 

如 果 文 法 G 的 开始 符号 是 S$， 那么 G 的 拓 广 文法 G' 是 在 G 的 基础 上 增加 一 个 新 的 开始 符 
号 9 和 产生 式 $ 一 S。 新 产生 式 的 目的 是 用 来 指示 语法 分 析 器 什么 时 候 应 该 停止 分 析 并 宣布 接 
受 输入 ， 即 当 且 仅 当 语法 分 析 器 执行 归 约 S's 时 ， 分 析 成 功 。 
4.7.3.1 闭 包 运算 closure 

如 果 了 是 文法 G 的 项 目 集 ， 那 么 closure(D 是 从 了 出 发 由 下 面 两 条 规则 构造 的 项 目 集 ; 

1. 初始 时 ， 把 了 的 每 个 项 目 都 加 入 到 closure(D 中 ， 

2. 如 果 4 一 a.BB 在 closure(D 中 ， 且 存在 产生 式 Boy, 4 By 不 在 closure) 中 ， 则 将 其 
加 入 closure(。 反 复 运 用 这 条 规则 ， 直 到 没有 更 多 的 项 目 可 加 入 closure) 为 止 。 

直观 上 ，4 一 o.BB 在 closure) 中 表示 在 语法 分 析 过 程 的 某 一 时 刻 ， 下 一 步 应 该 从 输入 中 
看 见 的 是 由 BB 推出 的 串 。 如 果 Boy 是 一 个 产生 式 ， 我 们 希望 在 这 个 时 刻 ， 也 应 该 从 输入 串 
中 看 见 从 Y 推 出 的 子囊。 基于 这 个 原因 ， 我 们 把 B-*-y 加 入 到 closure). 


例 4.34 考虑 拓 广 的 表达 式 文法 : 


E +E 

E>-E+T|T . 

T>T*F|F (4-19) 
F ~ (E) | id 





如 果 7 是 一 个 项 目 集合 | [E' 一 -E] |， 那 么 closwure(D 包 含 下 列 项 目 : 
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> E+T 
> TXF 
=> F 
一 ‘id 


KH, RAA), HL .E 加 入 到 closure). AW E 紧 挨 在 点 的 右边 ， 由 规则 (2)， 把 
点 在 左 端 的 EE 产生 式 ， 即 BE -E +7 E> .T 都 加 入 到 closure). PE, E T> -TxF Al T> 


F EMAZ., Ri, T> F ATF (E) 和 F> id 的 加 入 。 再 没有 其 他 项 目 可 以 应 用 规 
则 (2) 了 。 口 


计算 函数 closure 的 算法 如 图 4-33 所 示 。 一 种 简单 的 实现 方法 是 使 用 一 个 由 G 的 非 终 结 符 
作为 索引 的 布尔 数组 added。 当 为 每 个 


sass 


Boy 产生 式 增 加 项 目 B— -y 时 ,将 twee 
added [B] #4 true, pel 
注意 ， 如 果 一 个 点 在 左 端的 下 产生 repeat 
or J EAA — a BB 和 G 的 每 个 产生 式 
式 被 加 入 closure(D， 则 所 有 B 产生 式 f ue na ‘ 和 的 全 
都 将 类 似 地 加 入 closure(D。 事 实 上 , 我 WB y IMA J; 


们 并 不 需要 列 出 如 此 加 入 项 目 B 一 Y， wun) 
而 只 要 列 出 这 样 的 非 终 结 符 B 就 足够 end 
了 。 因 此 ， 我们 可 以 把 感 兴趣 的 项 目 、 
集中 的 项 目 分 成 两 类 ， 图 4-33 closure 的 计算 

1. 核心 项 目 : 初始 项 $ 一 .S 和 所 有 点 不 在 左 端的 项 目 。 

2. 非 核 心 项 目 : 点 在 左 端的 非 初始 项 目 。 

我 们 感 兴趣 的 每 个 项 目 集 都 可 以 通过 求 核心 项 目 集 的 闭 包 得 到 。 当 然 ， 加 入 闭 包 的 项 目 决 
不 会 是 核心 项 目 。 这 样 ， 如 果 扔 掉 所 有 非 核心 项 目 ， 可 以 用 较 少 的 存储 空间 来 表示 我 们 需要 的 
项 目 集 ， 因 为 非 核 心 项 目 可 以 通过 求 闭 包 来 重新 生成 。 
4.7.3.2 goto BH 

第 二 个 非常 有 用 的 函数 是 goto], X, HPI EMAR, X 是 文法 符号 。goto(, X) 定义 为 
所 有 项 目 集 [4 一 aX.B1 (4 一 o.2B] 在 了 中 ) 的 闭 包 。 直 观 上 讲 ， 如 果 了 是 对 某 个 活 前 缀 Y 的 有 
AMAR, 那么 goto, 加 是 对 活 前 级 YX 有 效 的 项 目 集 。 


例 4.35 若 了 是 两 个 项 目的 集合 | [EOE], [E>E+T] |， 则 goto, +) 包 含 以 下 项 目 : 


E> E+ T 

T> TXF 

T= F 

F > (E) 

F — -id 
我 们 通过 考察 1 的 项 目 ， 找 到 + 紧 挨 在 点 右 侧 的 项 目 来 计算 gotod，+)。 五 一 下 不 是 这 样 的 项 目 ， 
但 已 *E.+T 是 这 样 的 项 目 。 把 E>E.+ 了 中 的 点 移 过 + 得 到 | E>E+ .T}， 然 后 取 它 的 闭 包 。 口 


4.7.3.3 项 目 集 的 构造 
现在 我 们 给 出 拓 广 文法 C 的 规范 LR(0) 项 目 集 族 (下面 用 C 表示 ) 的 构造 算法 ， 如 图 
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4-34 FT o 


4.36 例 4.34 中 文法 (4-19) 的 规范 
LR(0) 项 目 集 族 如 图 4-35 所 示 。 这 个 项 目 集 
的 goto 函数 被 示 为 图 4-36 中 有 穷 自 动机 D 
的 状态 转换 图 。 口 


在 图 4-36 中 ， 如 果 D 的 每 个 状态 都 是 终 
态 且 1 是 初始 状态 ， 那 么 D 识别 的 刚好 是 文 





procedure ifems (G') 
begin 
C := {closure ({{S'— -S]})}: 
repeat 

for C 的 每 个 项 目 集 工 和 每 个 文法 符号 X， 

#goto(l, X) 非 空 且 不 在 C 中 do 
把 goto(1 OWA CP 

until 没有 更 多 的 项 目 可 以 加 入 C 





end 


法 (4-19) 的 活 前 级 。 这 不 是 偶然 的 。 对 每 个 图 4-34 项 目 集 的 构造 

文法 G， 规 范 项 目 集 族 的 goto 函数 定义 了 一 个 确定 的 有 穷 自动 机 ,识别 G 的 活 前 级 。 事 实 上 ， 
我 们 也 可 以 想像 一 个 识别 活 前 缀 的 不 确定 的 有 穷 自 动机 N， 其 状态 就 是 项 目 本 身 。 从 A 一 .XB 
到 4 一 coX.B 有 一 个 标记 为 X 的 转换 ， 从 4 一 o.BB 到 Boy 有 一 个 标记 为 e 的 转换 。 于 是 ， 由 NN 
的 状态 集 组 成 的 项 目 集 7 的 closure(D 恰好 是 3.6 节 定义 的 NFA 的 一 个 状态 集 的 e 闭 包 。 在 由 N 
用 子 集 构 造 法 构造 的 DFA F, goto(l, X) 定 义 了 状态 7 遇见 符号 X 时 的 转换 。 按 照 这 种 观点 ， 
图 4-34 中 的 过 程 items(G') 正好 是 应 用 在 由 G' 构造 的 NFA N 上 的 子 集 构造 法 。 





图 4-35 文法 (4-19) 的 规范 LR(0) 项 目 集 族 图 4-36 活 前 缀 的 DFA D 的 状态 转换 图 


有 效 项 目 。 如 果 存在 一 个 推导 5 营 oAw $> opipB2w ， 则 说 项 目 A-B,-B. HERR ab 是 有 
效 的。 一 般 而 言 ， 同 一 项 目 可 能 对 多 个 活 前 级 有 效 。A 一 BB 对 活 前 缀 ap 有 效 这 个 事实 告诉 
我 们 ， 在 发 现 of: 在 分 析 栈 时 是 移 进 还 是 归 约 ， 特 别 是 ， 如 果 Be, CRRA ES 
进 栈 ， 动 作 应 该 是 移 进 。 如 果 B= €, BAAS 是 句柄 ， 应 该 用 这 个 产生 式 归 约 。 当 然 ， 同 
一 个 活 前 缀 的 两 个 有 效 项 目 可 能 告诉 我 们 做 不 同 的 事情 ， 有 些 这 样 的 冲突 可 以 通过 向 前 看 下 一 
个 输入 符号 来 解决 ， 其 他 一 些 冲 突 可 以 用 下 一 节 的 方法 解决 。 当 LR 方法 用 于 构造 任意 文法 的 
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语法 分 析 表 时 ， 不 能 保证 所 有 语法 分 析 动作 的 冲突 都 能 被 解决 。 
我 们 可 以 很 容易 地 计算 出 能 够 出 现在 LR 语法 分 析 器 栈 中 的 每 个 活 前 级 的 有 效 项 目 集 。 实 
际 上 ， 如 果 4 是 一 个 由 规范 项 目 集 族 构造 、 以 goto 函数 为 转换 函数 的 DFA， 则 一 个 活 前 级 y 
的 有 效 项 目 集 正 好 从 A 的 初 态 出 发 ， 沿 着 标记 为 v 的 路 径 所 能 到 达 的 那些 项 目的 集合 。 这 是 
LR 分 析 理论 的 一 条 基本 定理 。 本 质 上 ， 有 效 项 目 集 草 含 了 所 有 可 以 从 栈 中 收集 到 的 有 用 信息 。 
我 们 不 打算 证 明 这 个 定理 ， 而 是 用 例子 来 说 明 。 = 
例 4.37 ”让 我 们 再 次 考虑 文法 (4-19)。 它 的 项 目 集 和 goto 函 数 如 图 4-35 和 图 4-36 所 示 。 很 明 [226 
显 ， 串 E+ Tx 是 (4-19) 的 活 前 级 。 图 4-36 的 自动 机 读 完 B+ Te 之 后 ， 进 入 状态 万 。 状 态 万 包含 
FINA: 


T>T* F 
F — -(E) 
F 一 :id 


它们 都 对 E+Tx 有 效 。 为 了 说 明 这 一 点 ， 考 虑 下 面 三 个 最 右 推导 : 


E' =E E' =E E' = E 
=> E+T => E+T => E+T 
=> E+T*F => E+T*F => E+TxF 
` => E+T*(E) => E+Txid 


第 一 个 推导 说 明了 TOT * .F 对 E+ Tx 有 效 性 ， 第 二 个 推导 说 明了 F-E) 对 E+ T+ 有 效 性 ， 
第 三 个 推导 说 明了 Fid 对 天 + Tx 有 效 性 。 可 以 证 明 ， 不 存在 对 E+T* 有 效 的 其 他 项 目 。 这 
个 证 明 留 给 感 兴趣 的 读者 。 口 
4.7.3.4 SLR 语 法 分 析 表 

现在 我 们 来 说 明 怎 样 从 识别 活 前 缀 的 确定 有 穷 自动 机 构造 SLR 语 法 分 析 表 的 动作 (action) 
函数 和 转移 goto ) 函数 。 我 们 的 算法 不 能 为 所 有 的 文法 都 产生 惟一 确定 的 分 析 动 作 表 ， 但 是 
它 可 以 成 功 地 应 用 在 许多 程序 设计 语言 的 文法 上 。 给 定 文法 G， 我 们 首先 把 G 拓 广 到 G ， 然 
后 构造 G' 的 规范 项 目 集 族 C， 最 后 使 用 下 面 的 算法 从 C 构造 语法 分 析 表 的 action 函数 和 goto 
函数 。 这 个 算法 要 求 我 们 知道 每 个 非 终 结 符 4 后 面 跟随 的 符号 集 FOLLOW(4) (参见 4.4 节 )。 


算法 4.8 SLR 语 法 分 析 表 的 构造 。 

输入 ; 拓 广 文法 G'。 

给 出 ; G' 的 SLR 语 法 分 析 表 函数 action 和 goto. 

方法 : 

1. 构造 C= {lo h, 00, ni 即 G 的 规范 LR(O) 项 目 集 族 。 

2. 从 工 构造 状态 i， 它 的 分 析 动 作 确 定 如 下 : 

a) 如 果 [4 一 QaB] Æ LF, FB goto(1;:，a) = 万 ， 则 置 action[i, a] 为 “移动 j HER”, KE 
的 a 必须 是 终结 符 。 

b) MRA aE LP, WX FOLLOW(4) 中 的 所 有 a， 置 action[i，a] 为 “ 归 约 A 一 a”。 这 
里 的 A 不 能 是 S 

c) 如 果 [$ 一 $.] 在 天 中 ， 则 置 action[i, $] 为 “接受 ”。 

如 果 由 上 面 的 规则 产生 的 动作 有 冲突 ， 那么 文法 G 就 不 是 SLR(1) 文 法 。 在 这 种 情况 下 ， 
该 算法 构造 不 出 G 的 语法 分 析 器 。 


N 
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3. 对 所 有 的 非 终结 符 4， 使 用 下 面 的 规则 构造 状态 i 的 goto 函数 : WR gotolli, A)= 1, 
则 goto[i, A] =j。 

4. 不 能 由 规则 (2) 和 规则 G3) 定义 的 表 项 都 置 为 “出 错 ”。 

5. 语法 分 析 器 的 初始 状态 是 从 包含 [S-S] 的 项 目 集 构造 出 的 状态 。 

由 算法 4.8 所 确定 的 由 action 和 goto 函数 组 成 的 语法 分 析 表 叫做 文法 G 的 SLR(1) 表 。 使 用 G 
的 SLR(1) 表 的 LR 语法 分 析 器 叫做 G 的 SLR(1) 语 法 分 析 器 。 存 在 SLR(1) 语 法 分 析 表 的 文法 叫做 
SLR(1) 文 法 。 通常， 我 们 省 略 SLR 后 面 的 (1)， 因 为 我 们 不 讨论 向 前 看 多 个 符号 的 分 析 器 。 


例 4.38 让 我 们 为 文法 (4-19) 构 造 SLR 表 。 它 的 规范 LR(0) 项 目 集 族 已 在 图 4-35 中 给 出 了 。 
BAS EMA b: 


‘E 
-E+T 
T 
-T*F 
-F 
(E) 

-id 

项 目 F—--(E) 使 得 action[0, ]=“ 移 动 4 进 栈 "， 项 目 Fid 使 得 action[0, id] =“ 移 动 5 进 栈 "。 
五 中 的 其 他 项 目 不 产生 动作 。 现 在 考虑 石 : 


E =E 
E > E+T 


YNN 
peeuauad 


第 一 项 导致 action[1, $]=“ 接 受 ”， 第 二 项 使 得 acrion[1, +] =“ 移 动 6 进 栈 " 。 接 下 来 考虑 万 : 

E =T: 

T > T-*F 
因为 FOLLOW(E) = {$，+，)}， 第 一 项 使 得 action[2, $] = action[2, +] = action[2, ) ] = “1425 E 
一 7 ， 第 二 项 使 得 action(2, *] =“ 移 动 7 进 栈 "。 以 这 种 方法 继续 下 去 即 可 得 到 图 4-31 中 的 动作 
(action) 表 和 转移 (goto) 表 。 在 图 4-31 中 ， 归 约 动作 中 的 产生 式 序号 和 它 在 原文 法 (4-18) 中 出 现 
的 顺序 是 相同 的 ， 即 ESE + THYGE, ESTARSE, $, 口 


例 4.39 每 个 SLR(1) 文 法 都 不 是 二 义 的 ， 但 有 很 多 非 二 义 的 文法 不 是 SLR(1) 文 法 。 考 虑 具 
有 下 列 产 生 式 的 文法 。 

S>L=R 

9 一 民 

7 (4-20) 

L > id 

R>L 
可 以 把 工 和 R 想像 成 分 别 代表 左 值 和 右 值 ， 击 * RR—+*+ RETRA” PERSE. XE 
(4-20) 的 规范 LR(0) 项 目 集 族 如 图 4-37 所 示 。 

考虑 项 目 集 I,。 该 集合 的 第 一 项 使 得 acrion[2，=] 为 “移动 6 进 栈 "。 因 为 FOLLOW(R) 包 
&=-(2BAWASS>L=aR>+R=R), 第 二 项 使 得 action[2，=] 为 “ 妇 约 ROL”. FH, 


日 ”正如 2.8 节 所 介绍 的 ， 左 值 表示 一 个 位 置 ， 而 右 值 是 可 以 保存 在 位 置 中 的 值 。 
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actionf2，=] 有 多 重 定义 。 因 为 其 中 既 有 移动 
进 栈 又 有 归 约 ， 所 以 状态 2 在 输入 符号 为 = 
时 存在 移动 - 归 约 冲突 。 

文法 (4-20) 不 是 二 义 性 的 。 移 动 -~ 归 约 
冲突 的 出 现 ， 说明 SLR 语法 分 析 器 的 构造 方 
法 没有 强 到 记 住 足够 多 的 上 下 文 ， 以 决定 在 
已 经 看 见 了 可 归 约 到 工 又 面临 输入 = 时 ， 语 
法 分 析 器 应 该 采取 什么 动作 。 下 面 要 讨论 的 
规范 LR 方法 和 LALR 方法 能 够 成 功 地 应 用 
到 更 大 的 文法 类 上 ， 包 插 文 法 (4-20)。 但 是 
应 该 指出 ， 存 在 一 些 非 二 义 文 法 ， 每 种 LR 
语法 分 析 器 构造 方法 都 会 为 其 产生 包含 冲突 
分 析 动 作 的 语法 分 析 动 作 表 。 幸 运 的 是 ， 程 
序 设计 语言 中 通常 可 以 避免 使 用 这 样 的 文 
法 。 口 图 4-37 文法 (4-20) 的 规范 LR(0) 项 目 集 族 
4.7.4 ”构造 规范 LR 语法 分 析 表 

直面 讨论 构造 LR 语法 分 析 表 的 最 一 般 技术 。 让 我 们 回顾 一 下 ， 在 SLR 方 法 中 ， 如 果 项 目 集 
二 包含 项 目 [4 一 0.] 并 且 a 在 FOLLOW(4) 中 ， 则 状态 i 调用 Ao 归 约 。 然 而 ， 在 某 些 情况 下 ， 
HRS i 出 现在 栈 顶 时 ， 栈 内 的 活 前 缀 Ba 使 得 在 任何 右 名 型 中 ，BA 不 能 跟随 a。 因 此 ， 在 这 
种 情况 下 ， 用 4 一 "oa 进行 归 约 是 无 效 的 。 

例 4.40 ”让 我 们 重新 考虑 例 4.39。 状 态 2 中 的 项 目 ROL 对 应 于 上 面 的 A 一 Qa，a 对 应 于 符 
号 =，= 在 FOLLOW(R) 中 。 于 是 ， 当 SLR 语 法 分 析 器 处 于 状态 2 而 且 下 一 个 输入 符号 为 = 时 ， 
SLR 语 法 分 析 器 调用 ROL 归 约 (因为 项 目 $5 一 L-=R 也 在 状态 2 中 ,移动 进 栈 动作 也 要 被 调用 )。 


然而 ， 例 4.39 的 文法 没有 以 R=… 开始 的 右 句 型 。 因 此 ， 仅 与 活 前 缀 工 相对 应 的 状态 2 不 应 该 调 
FHE L HAR R 的 归 约 动作 。 口 


我 们 可 以 令 该 状态 蕴涵 更 多 的 信息 ， 使 之 能 够 剔除 上 述 那 些 用 Ao 进行 的 无 效 归 约 。 必 
要 时 ， 我 们 可 以 通过 分 裂 状 态 ， 使 LR 语 法 分 析 器 的 每 个 状态 能 确切 地 指出 句柄 co 后 紧 跟 哪些 
终结 符 时 才 可 能 把 o 归 约 为 4。 

通过 重新 定义 项 目 , 使 之 包含 一 个 终结 符 作 为 第 二 个 分 量 , 可 以 把 更 多 的 信息 并 入 状态 中 。 
项 目的 一 般 形式 也 就 变 成 了 [4 一 .BB，a]， 其 中 4 一 op 是 产生 式 ，a 是 终结 符 或 $。 这 样 的 对 象 
则 做 LR(1) 项 目 。1 是 第 二 个 分 量 的 长 度 ， 这 个 分 量 叫 做 项 目的 搜索 符 。° 搜 索 符 对 于 B 为 非 e 
的 项 目 [4 一 a.BR， 四 没有 影响 。 对 于 形 如 [4 一 o.，a] 的 项 目 ， 搜 索 符 则 表示 只 有 下 一 个 输入 符号 
是 a 时 该 项 目 才能 调用 4 一 ca 归 约 。 于 是 ， 只 有 [4 一 cx.，q] 是 栈 顶 状态 的 LR(1) 项 目 而 且 输 入 
符号 为 a 时， 我们 才能 使 用 A 一 进行 归 约 。 这 样 的 a 的 集合 总 是 FOLIOW(4) 的 一 个 子 集 ， 
可 能 是 真子 集 ， 如 例 4.40 那 样 。 

形式 地 ， 我 们 说 LR(1D 项 目 [4 一 Qa-B，a] 对 活 前 级 Y AR, ， 如 果 存 在 推导 SS 54w > 
‘60Bw ’ 其 中 : 


O 当然， 搜索 符 可 能 是 长 度 大 于 1 的 串 ， 但 我 们 在 此 不 考虑 这 种 串 。 
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1. Y= 60。 

2.a 是 w 的 第 一 个 符号 , RA w 是 e 且 a 是 $。 

例 4.41 让 我 们 考虑 如 下 文法 : 

S > BB 

B > aB |b 
它 有 一 个 最 右 推导 S5 aaBab => aaaBab。 在 上 面 的 定义 中 , 令 5= aa A=B, w=ab, a=a, 
B = 8， 我 们 可 以 看 到 ,项 目 [B—>aB, a] 对 活 前 级 y= aaa 是 有 效 的 。 这 个 文法 的 另 一 个 最 右 
推导 是 S => BaB = BaaB。 从 这 个 推导 可 以 看 出 ， 项 目 [8 一 a.B，$] 对 于 活 前 组 Baa 是 有 效 
的 。 口 


规范 构造 有 效 的 LR(1) 项 目 集 族 的 方法 本 质 上 和 构造 规范 LR(0) 项 目 集 族 的 方法 是 一 样 的 ， 
只 需要 修改 closure 和 goto 这 两 个 过 程 。 


为 了 理解 closure 运算 的 新 定义 ,考虑 对 活 前 级 Y 有 效 的 项 目 集 中 的 项 目 [4 一 0BB，a]， 必 
定 存 在 一 个 最 右 推导 5 圭 > dAax=> S0BRax, HP y= òa. Bit Bax 能 推出 终结 符 串 py， 那 么 
对 每 个 形 如 Bon 的 产生 式 ， 存 在 推导 5 大 -YBby => mBy， 于 是 Bn, blt yA EE, b 
可 能 是 从 B 推出 的 第 一 个 终结 符 ， 或 者 在 推导 Baxt by H, B HEHE, b RMT a. BHR 
两 种 可 能 性 ， 可 以 说 b 是 FIRST(Bax) 中 的 任何 终结 符 ， 其 中 FIRST 的 定义 见 4.4 节 。 注 意 ，x 
不 可 能 包含 by 的 第 一 个 终结 符 ， 所 以 FIRST(Bax) = FIRST (Ba )。 现 在 我 们 给 出 LR(1) 项 目 集 
的 构造 算法 。 

算法 4.9 LR(1) 项 目 集 的 构造 。 

HA: 拓 广 文法 G'。 

输出 : LR(1) 项 目 集 ， 它 们 是 对 C 的 一 个 或 多 个 活 前 级 有 效 的 项 目 集 。 

方法 : 构造 项 目 集 的 过 程 closure 和 goto 及 主 例 程 items 如 图 4-38 所 示 。 o 

例 4.42 ”考虑 下 面 的 拓 广 文法 : 

S' -sS 


3 ~ CC (4-21) 
C+C|d 


首先 计算 {[ 3 一 S.，$]} 的 闭 包 。 为 计算 闭 包 ， 我 们 用 项 目 LS, $] 来 匹配 过 程 
closure 中 的 项 目 [4 一 oaB.B,a]， 即 令 4=S ax=e,B=S， P=€,a=$, TERR closure 中 ， 
要 求 对 每 个 产生 式 Boy 和 FIRST(Ba) 的 每 个 终结 符 bp， 把 [B 一 :-Y，b] 加 到 闭 包 中 。 根 据 当 
前 文法 ，B5 一 Y 只 能 是 5 一 CC， 而 且 因 为 B =e a=$, 也 只 能 是 $， 因 此 将 [5 一 .CC，5$] 
加 入 到 闭 包 中 。 

接 下 来 ， 对 于 FIRST(C$) 中 的 bp， 将 项 目 [C 一 -Y,， 四 加 入 闭 包 。 也 就 是 说 ， 用 项 目 [S 一 .CC， 
$] 匹 配 项 目 [4 一 0.B. 了 B，a]， 其 中 4=5, a=€, B=C, B=C,a=$。 因 为 C 不 会 推导 出 空 串 ， 
所 以 FIRST(C$) = FIRST(C)。 又 因为 FIRST(C) 包 含 终结 符 c 和 d， 所 以 将 以 下 项 目 加 入 闭 包 : 


[C>-cC, c), [C—>cC, d], [C—-d, c], [C>-d, d]o 因为 再 没有 紧 跟 在 点 右面 的 非 终结 符 ， 
所 以 我 们 就 完成 了 对 第 一 个 LR(1) 项 目 集 的 计算 。 这 个 初始 项 目 集 为 : 
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Io: S > S, $ 
S —+ -CC, $ 
C > cC, clid 
C > `d, cld 


为 方便 起 见 , 我 们 把 表示 LR(1) 项 目的 方 括 号 省 略 了 , 而 且 用 [C>cC, cld] 表示 [CcC, 
c] 和 [CC 一-cC，4d |] 的 缩写 。 





















function closure (/); 
begin 
repeat 
for /中 的 每 个 项 目 [4 一 a.88 ，a]，G' 中 的 每 个 产生 式 B 一 Y 和 FIRST(Ba NETRA, MOR 
[B->-y, b] 不 在 1 中 do 
Ey, BANE R; 
until 再 没有 项 目 可 加 到 了 中 ， 
return / 
end; 


function goto(/, X); 
begin 
对 于 7 中 的 项 目 [4 一 o.XpB, a], Q J 是 项 目 [4 一 oX.B, a] 的 集合 ; 
return closure (J) 
end; 


procedure items (G'); 
begin 
C := {closure({[S’ = -S, $])}; 
repeat 

for C 的 每 个 项 目 / 和 每 个 文法 符号 X， 若 goto(I，X) 

非 空 且 不 在 C 中 do 
fEgotod, DIMA CF 

until 再 没有 项 目 集 可 以 加 入 C 中 


end 


图 4-38 文法 G' 的 LR(1) 项 目 集 的 构造 


现在 对 不 同 的 X 值 计算 gotoh, Do XX = 5S， 因为 点 在 右 端 ， 所 以 项 目 集中 只 有 项 目 [$ 
一 5.，$]， 因 此 第 二 个 项 目 集 为 : | 


Ty: S'- S+, $ 
X X =C, RS occ, SAW, MARTIRE $ 的 C- 产 生 式 〈 左 部 为 C 的 所 有 产 
ER) 得 到 如 下 项 目 集 : 


lh: S- CC,$ 
C> 'cC, 
C > -d,$ 


接 下 来 , @ X= c, 求 {[ Coe, cd) 的 闭 包 ， 加 入 第 二 个 分 量 是 cd 的 C- 产 生 式 得 到 
如 下 项 目 集 : 
l; C=ceC,c/d 


C => cC, cid 
C > ‘d, cid 


最 后 ， 令 X= 4， 用 以 下 项 目 集结 束 : 


754 BALE 


la: C > d, clid 

现在 已 经 求 完 上 的 转移 函数 ,五 上 没有 转移 ， 但 下 一 个 输入 是 C、c 和 4 时 1, 上 有 转移 。 
对 C 可 得 如 下 项 目 集 : 

Is; S~+CC-,$ 


不 需要 再 求 闭 包 。 对 c， 求 {[C 一 c.C， 绅 } 的 闭 包 可 得 : 
Te: C- ec, $ 
C- eC, $ 
C--d,$ 
注意 , LA 只 是 第 二 个 分 量 不 相同 。 我 们 将 会 看 到 ， 文 法 的 许多 LR(1) 项 目 集 的 第 一 个 
分 量 相同 而 第 二 个 分 量 不 相同 。 当 我 们 构造 LR(0) 项 目 集 时 ， 每 个 LR(0) 项 目 集会 与 一 个 或 多 个 
LR(1) 项 目 集 的 第 一 个 分 量 一 致 。 我 们 将 在 讨论 LALR 分 析 法 时 再 详细 解释 这 种 现象 。 
下 面 继续 构造 by goto KR, goto (h, dÆ: 
Fy: C-d-,$ 
现在 计算 ;的 goto 函数 ,在 c 和 da 上 的 转移 分 别 是 和 I， 而 goto (b, OÆ: 
Ig: C > cecC:,c/ld 
LA 石上 没有 转移 。 J 在 C 和 d 上 的 转移 分 别 是 J 和 和 h, goto (1, C ) E: 
Ty: C - CC .…， $ 
剩 下 的 项 目 集 上 都 没有 转移 ， 因 此 最 终 的 十 个 项 目 集 及 其 上 的 转移 如 图 4-39 所 示 。 口 


现在 我 们 给 出 从 LRC 项 目 集 构造 LR(1) 语 法 分 析 表 动作 函数 和 转移 函数 的 规则 。 动 作 函 数 
和 转移 函数 也 采用 前 面 的 表 的 表示 方式 ， 惟 一 的 区 别 是 表 项 的 值 不 同 。 


算法 4.10 规范 LR 语 法 分 析 表 的 构造 。 

输入 : 拓 广 文法 G'。 

输出 ; 文法 G' 的 规范 LR 语法 分 析 表 函数 action 和 goto. 

方法 : . 

1. 构造 G' 的 LR(1) 项 目 集 规范 族 C= {h, h, 00, Indo 

2. 从 7 构造 语法 分 析 器 的 状态 1， 状态 i 的 分 析 动 作 确定 如 下 : 

a) 如 果 [4 一 QaB，b] 在 /中 且 goto (L, a) =1,, WE action[i, als, Bl “oh j BER”, 
这 里 要 求 a 必须 是 终结 符 。 

b) 如 果 [4 一 oa. ，q] 在 关中 且 A*S, WW Baction[i, ah r, Bik IH, 其 中 j 是 产生 式 
Aa. 的 序号 。 

c) WARS S-, SHEL, WB action[i, $]=acc, BREF. 

如 果 用 上 面 的 规则 构造 语法 分 析 表 时 出 现 冲 突 ， 那 么 该 文法 就 不 是 LR(1) 的 ， 该 算法 对 此 
文法 失败 。 

3. 状态 的 转移 按 下 面 的 方法 确定 ， 如果 goto(1;:，4) = 四， 那么 goto[i，4] =j。 

4. 用 规则 (2) 和 规则 (3) 中 未 能 定义 的 所 有 表 项 都 置 为 “出 错 ”。 

5. 语法 分 析 器 的 初始 状态 是 由 包含 S'S, $] 的 项 目 集 构造 出 的 状态 。 口 
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图 4-39 文法 (4-21) 的 转移 图 


由 算法 4.10 产 生 的 动作 函数 和 转移 函数 所 构成 的 表 叫 做 规范 LR(1) 语 法 分 析 表 ， 使 用 这 种 
表 的 LR 语 法 分 析 器 叫做 规范 LR(D 分 析 器 。 如 果 动 作 函 数 没 有 多 重 定 义 的 表 项 ， 那 么 这 个 文法 
叫做 LR(1) 文 法 。 和 前 面 一 样 。 如 果 不 会 引起 误 = 
解 的 话 ， 可 以 省 略 “(1)”。 


例 4.43 文法 (4-21) 的 规范 LR 语法 分 析 表 
如 图 4-40 所 示 ， 产 生 式 1、2 和 3 分 别 是 SCC, 
CC 和 Cd, 口 


每 个 SLR(I) 文 法 都 是 LR(1) 文 法 ， 但 对 于 
SLR() 文 法 ， 规 范 ER 语 法 分 析 器 可 能 比 同一 文 
法 的 SLR 语 法 分 析 器 具有 更 多 的 状态 。 上 面 例 
子 中 的 文法 是 SLR 文 法 ， 它 的 SLR 语 法 分 析 器 
只 有 7 个 状态 ， 而 图 4-40 却 有 10 个 状态 。 图 4-40 文法 (4-21) 的 规范 LR 语 法 分 析 表 
4.7.5 构造 LALR 语 法 分 析 表 

现在 我 们 介绍 最 后 一 种 分 析 器 的 构造 方法 ， 即 LALR(lookahead-LR) 技术 。 在 实践 中 经 常 
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使 用 这 种 方法 ， 因 为 由 它 产 生 的 语法 分 析 表 比 规范 LR 语 法 分 析 表 要 小 得 多 ， 而 大 多 数 普 通 的 
程序 设计 语言 的 结构 又 都 可 以 方便 地 用 LALR 文 法 来 表示 。 同 样 的 结论 对 SLR 文 法 几乎 也 是 对 
的 , 但 是 有 少数 结构 不 能 方便 地 用 SLR 技 术 进 行 处 理 ( 例 4.39 便 是 一 个 例子 )。 

就 语法 分 析 器 的 大 小 而 言 ，SLR 表 和 LALR 表 对 同一 个 文法 具有 同样 多 的 状态 ， 对 Pascal 这 
样 的 语言 有 几 百 个 状态 ， 而 同样 大 小 的 语言 的 规范 LR 表 则 有 几 千 个 状态 。 所 以 ， 构 造 SLR 表 和 
LALR 表 比 构造 规范 LR 表 要 经 济 得 多 。 

作为 人 门 ， 让 我 们 再 次 考虑 文法 (4-21)， 它 的 LR(1) 项 目 集 如 图 4-39 所 示 。 取 一 对 看 起 来 类 
似 的 状态 ， 如 五 和 五 ， 它 们 都 只 有 一 个 项 目 ， 并 且 第 一 分 量 都 是 Cd, LPRRAE cd, 
石 中 搜索 符 是 $- 

我 们 来 看 一 下 语法 分 析 器 中 h 和 的 不 同 作用 。 注 意 ， 文 法 (4-21) 产 生 的 是 正规 集 c*dc*d。 
当 读 入 输入 串 cc…cdcc…ed 时 ， 语 法 分 析 器 把 第 一 组 c 及 其 后 面 的 d 移 进 栈 中 ， 进 入 状态 4。 
如 果 下 一 个 输入 符号 是 c 或 4， 语 法 分 析 器 将 按 产生 式 Cd 归 约 。 要 求 c 或 4 跟随 是 合乎 情理 
的 ， 因 为 它们 属于 串 c*d 的 开始 符号 。 如 果 跟 在 第 一 个 4 后 的 下 一 个 输入 符号 是 $， 例 如 ， 输 
ARSE ced ， 因 为 该 符号 串 不 在 此 正规 集 内 ， 因 此 分 析 器 将 报错 ( 由 状态 4 正确 的 指出 错误 )。 

语法 分 析 器 在 读 人 第 二 个 d 之 后 进入 状态 7。 下 一 个 输入 符号 必须 是 $， 否 则 输入 串 就 不 是 
c*dc*d 的 形式 。 所 以 合理 的 做 法 是 ， 面 临 $ 时 状态 7 应 按 Cod 归 约 ， 面 临 c 或 4 时 报告 错误 。 

现在 ， 让 我 们 把 状态 LAL AIA fy;， 把 它们 的 搜索 符合 起 来 ， 成 为 [C 一 4d:.，c/d/$]。 从 
l, ，b 和 到达 开 或 万 的 在 d 上 的 转移 现在 都 进入 Tar, RAS Tn 的 动作 是 对 任何 输入 符号 都 
进行 归 约 。 修 改 后 的 语法 分 析 器 的 行为 本 质 上 和 原来 的 一 样 ， 但 它 会 把 某 些 情 况 下 的 4 归 约 成 
C， 而 原来 的 语法 分 析 器 对 这 些 情况 是 报错 的 ， 如 输入 为 ccd 或 cdcdc 时 。 值 得 庆幸 的 是 ， 这 
些 错误 最 终 会 被 捕获 ， 而 且 是 在 移 进 下 一 个 输入 符号 前 被 捕获 。 

更 一 般 地 讲 ， 我 们 可 以 寻找 同心 的 ( 即 第 一 分 量 相同 ) LR(1) 项 目 集 ， 并 把 这 些 同心 的 项 
目 集合 并 成 一 个 项 目 集 。 例 如 ， 在 图 4-39 中 ，L 生 形 成 这 样 的 一 对 同心 集 ， 心 为 | C 一 d. lo 
类 似 地 ， 和 形成 男 一 对 ， 它 们 的 心 是 {C 一 c-C，C 一 cC，C 一 d }。 还 有 一 对 是 和 19， 它 
们 的 心 是 {C 一 cC.}。 注 意 ， 一般 而 言 ， 心 是 相应 文法 的 一 个 LR(0) 项 目 集 ; 另外 ，LR(1) 文 法 可 
能 产生 多 个 同心 的 项 目 集合 。 

因为 goto(1， 如 的 心 只 依赖 于 1 的 心 ,所 以 LR(1) 项 目 集合 并 后 的 转移 函数 可 以 通过 goto(1， 
DD 自 身 的 合并 而 得 到 ， 这 样 ， 在 合并 项 目 集 时 不 必 同 时 考虑 修改 转移 函数 的 问题 。 动 作 函 数 应 
作 相 应 修改 ， 使 得 它 能 反映 各 个 被 合并 集合 的 既定 动作 。 

假设 有 一 个 LR(1) 文 法 ， 即 它 的 LR(1) 项 目 集 中 不 存在 分 析 动 作 冲 突 。 如 果 我 们 把 同心 的 项 
目 集合 并 为 一 ， 就 可 能 导致 冲突 ， 但 是 这 种 冲突 不 会 是 移动 - 归 约 冲突 。 因 为 如 果 存 在 这 种 冲 
突 ， 则 意味 着 对 当前 输入 符号 a， 有 一 个 项 目 [4 一 Qa.:，a] 要 求 以 A 一 a 进行 归 约 ， 同 时 又 有 另 
一 个 项 目 [8 一 B.ay，b] 要 求 把 a 移 进 。 这 两 个 项 目 既 然 同 处 于 合并 之 后 的 项 目 集中 ， 则 意味 着 在 
合并 前 ， 必 有 某 个 c 使 得 [4 一 0+，a] 和 [8B 一 B-ay，a] 同 处 于 合并 前 的 某 一 集合 中 。 然 而 ， 这 了 又 
意味 着 原来 的 LR(1) 项 目 集 就 已 经 存在 着 移动 - 归 约 冲突 。 从 而 文法 不 是 LR(1) 的 ， 这 与 假设 不 
符 。 事 实 上 移动 - 归 约 冲突 不 依赖 于 搜索 符号 而 只 依赖 于 其 心 ， 因 此 ， 同 心 集 的 合并 不 会 引起 
新 的 移动 - 归 约 冲突 。 

但 是 ， 同 心 集 的 合并 有 可 能 产生 新 的 归 约 - 归 约 冲突 ， 如 下 面 的 例子 所 示 。 

例 4.44 考虑 如 下 文法 : 

s' +s 
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S ~ aAd | bBd | aBe | bAe 

A >c 

B >c 

它 只 产生 四 个 串 : acd, ace, bed 和 bce。 通 过 构造 该 文法 的 LR(1) 项 目 集 ， 可 以 看 出 没有 
冲突 ， 它 是 LR(1) 文 法 。 在 它 的 项 目 集 中 ， 对 活 前 级 cc 有 效 的 项 目 集 为 {[Acc, d], [Boc., 
e]}， 对 bc 有 效 的 项 目 集 为 {[4 一 c+:，e]，[B 一 c+:，d]}， 这 两 个 集合 都 没有 产生 冲突 且 是 同心 的 ， 
然而 ， 它 们 合并 后 

A > c', dle 

B > c:, dle 


产生 归 约 - 归 约 冲突 。 因 为 当面 临 输入 符号 4 或 e 时 ， 不 知道 应 该 用 哪个 产生 式 进 行 归 约 。 O 
下 面 我 们 将 给 出 构造 LALR 语 法 分 析 表 的 第 一 个 算法 ， 其 基本 思想 是 : 首先 构造 LR(1) 项 目 
集 族 ， 如 果 它 不 存在 冲突 ， 就 把 同心 集合 并 在 一 起 ， 再 按 这 个 项 目 集 族 构造 语法 分 析 表 。 该 方 


法 可 以 作为 描述 LALR(1) 文 法 的 基本 定义 。 在 实际 应 用 中 ， 由 于 构造 完整 的 LR(1) 项 目 集 族 需 
要 很 多 的 空间 和 时 间 ， 因 而 需要 另 找 算法 。 


算法 4.11 一 个 简易 但 耗 空间 的 LALR 表 构造 法 。 

输入 : 拓 广 文法 G'。 

输出 : G' 的 LALR 语 法 分 析 表 的 action 函数 和 goto 函数 。 

Rik: 

1. 构造 文法 的 LR(1) 项 目 集 规范 族 C={16， h, +, Indo 

2. 对 出 现在 LR(1) 项 目 集中 的 每 个 心 ， 找 出 所 有 与 之 同心 的 项 目 集 ， 用 它们 的 并 集 代 替 它 们 。 

3. FC = {Jo， 刀 ，…，Jm} 是 合并 后 的 LR(1) 项 目 集 族 。 按 照 算法 4.10 中 的 方式 从 来 构造 
状态 的 动作 。 如 果 分 析 动 作出 现 冲 突 ， 算法 无 法 产生 分 析 表 ， 说 明 该 文法 不 是 LALR(1) 文 法 。 

4. goro 表 的 构造 如 下 : 如 果 J 是 一 个 或 多 个 LR(1) 项 目 集 的 并 ， 即 J=TULU… ULI， 那么 
goto(h, X), goto(h, X), ©, goto, DERG, AA, ，…， 都 同心 。 记 KK 为 所 有 与 
goto, XBL DARE HIF, M goto, X)=Ko 口 


由 算法 4.11 产 生 的 表 称 为 G 的 LALR 分 析 表 。 如 果 分 析 动 作 没有 冲突 ， 则 该 文法 称 为 
LALR(1) 文 法 。 在 第 (3) 步 中 构造 的 项 目 集 族 叫做 LALR(1) 项 目 集 族 。 


例 4.45 再 次 考虑 文法 (4-21), 它 的 转移 图 如 图 4-39 所 示 。 正 如 我 们 前 面 所 提 到 的 ， 有 3 对 
项 目 集 可 以 被 合并 ,五 和 无 合并 成 ， = 


Ty: C > c-C, cidl$ 





C > cC, c/di$ 
C > -d, cid/$ 
LAL AFR: 
Iy: C >d, cldl$ 
LM Ip GFF RM: 
Is: C > cC, c/di$ 图 4-41 文法 (4-21) 的 LALR 语 法 分 析 表 


将 项 目 集 压缩 后 的 LALR 动作 函数 和 移 转 函 数 如 图 4-41 所 示 。 


N 
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现在 来 看 看 转移 函数 是 怎样 计算 的 。 考 虑 goto(136，OQ)， 在 原来 的 LR(1) 项 目 集中 ，goto(1s， 
O=, M LAEE too 的 一 部 分 。 因 此 ， 置 goto (bs, C) =l WRZE bo 的 另 一 部 分 I PI 
以 得 到 同样 的 结论 ， 即 gotoUs, C)= lo, WM Io REE lo 的 一 部 分 。 又 例如 ， 考 虑 goto(2 ，c)， 
它 指出 了 在 面 对 输 入 符号 c 时 执行 了 三 的 移 进 动作 之 后 的 转移 方向 。 在 原来 的 LR(1) 项 目 集中 ， 
goto(h, c)=1s, AW Ic 现在 是 B36 的 一 部 分 ， 所 以 goto(1;:，c) = pk。 于 是 ， 语 法 分 析 表 中 状态 2 
面临 输入 符号 c 的 表 项 是 36， 其 含意 是 移 进 c， 再 把 状态 36 置 于 栈 顶 。 | 口 


当 输 入 串 为 c*dc*d 时 ， 无 论 是 图 4-40 的 LR 语 法 分 析 器 还 是 图 4-41 的 LALR 语 法 分 析 器 ， 都 
给 出 了 同样 的 移动 归 约 序列 。 其 差别 只 是 状态 名 不 同 而 已 ， 即 如 果 LR 语 法 分 析 器 把 五 或 I E 
进 栈 ，LALR 语 法 分 析 器 就 把 Fe 压 进 栈 。 对 于 正确 的 输入 串 ，LR 语 法 分 析 器 和 LALR 语 法 分 析 
器 将 非常 相像 。 


但 是 ， 当 输入 串 存在 错误 时 ，LALR 语 法 分 析 器 可 能 比 LR 语 法 分 析 器 多 做 了 一 些 不 必要 的 
归 约 ， 而 LR 语 法 分 析 器 则 能 立即 报错 。 但 LALR 语 法 分 析 器 在 LR 语 法 分 析 器 报错 之 后 决 不 会 
移 进 更 多 的 符号 8 。 例 如 ， 若 输入 串 是 ccd 并 跟随 以 $ 时， 图 4-34 的 LR 语法 分 析 器 将 把 

Oc3c3d4 
压 人 栈 ， 并 在 状态 4 发 现 错误 ， 因 为 状态 4 面临 $ 的 动作 是 “出 错 ”。 对 于 同一 输入 串 ，LALR 
语法 分 析 器 将 产生 相应 的 动作 ， 即 把 

0c 36c36d47 
压 人 栈 。 但 状态 47 面 临 $ 的 动作 是 归 约 Cd， 栈 的 内 容 成 为 

0c36c36C89 
现在 状态 89 面 临 $ 的 动作 是 归 约 C 一 cC， 这 时 栈 的 内 容 改 为 

0c36C89 
再 经 一 次 类 似 的 归 约 ， 获 得 的 栈 为 

0C2 
最 后 ， 状 态 2 面临 $ 的 动作 是 “出 错 ”， 语 法 分 析 器 这 时 发 现 错误 。 

4.76 LALR 语 法 分 析 表 的 有 效 构造 方法 
我 们 可 以 对 算法 4.11 进 行 一 些 修改 ， 以 避免 在 创建 LALR(1) 语 法 分 析 表 时 包含 全 部 的 LR(1) 


项 目 集 族 ， 首先 ， 我 们 注意 到 可 以 用 项 目 集 [的 核 来 表示 I， 也 就 是 说 ， 可 以 用 初 态 项 目 [5' 一 5， 
$] 或 那些 圆 点 不 在 右 部 最 左 端的 项 目 来 表示 17。 


其 次 ， 我们 只 需 利 用 项 目 集 /的 核 就 能 计算 1 所 产生 的 动作 。 除 非 a = e ， 否 则 任何 调用 
A 一 Q 进行 归 约 的 项 目 都 在 该 核 中 。 当 且 仅 当 存在 核 项 目 [B 一 y.C5，b]， 使 得 对 某 些 n 及 
FIRSTOm8b) 中 的 sx 有 C 车 hn 时， 对 输入 a 才 可 以 用 4 一 e 进行 归 约 。 对 每 个 非 终 结 符 C， 满 足 
C 区 4m 的 所 有 非 终结 符 4 都 可 以 预先 计算 出 来 。 

由 了 产生 的 移 进 动作 可 以 通过 下 列 方法 由 工 的 核 来 确定 。 如 果 存 在 核 项 目 [ByCS, b], 


O ”也 就 是 说 ， 就 准确 地 指出 输入 串 的 出 错位 置 这 一 点 而 言 ，LALR 语 法 分 析 器 和 LR 语 法 分 析 器 是 等 效 的 。 
一 一 译 者 注 
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其 中 CC 个 ax， 且 这 个 推导 的 最 后 一 步 不 使 用 e 产生 式 ， 则 可 以 将 输入 符号 a 移 进 。 对 于 每 个 C， 
满足 C 专 > ax 的 所 有 终结 符 a 也 是 可 以 预先 计算 出 来 的 。 

下 面 我 们 来 看 一 看 如 何 通过 核 来 计算 goto 转换 。 如 果 [B—yXS, b] TE I WF, IRA [Bo 
XS, b] 也 在 gotod, X) 的 核 中 。 如 果 [By.C8, b] 在 1 的 核 中 ， 并 且 对 于 某 个 n 有 CAN, 
那么 [4 一 XB, a] 也 在 goto(l, X) 的 核 中 。 如 果 我 们 对 每 对 非 终 结 符 C 和 A 都 能 预先 确定 对 某 个 
n 而 言 是 否 有 关系 C 寺 An， 那么 ， 从 核 计算 项 目 集 这 一 工作 仅 比 从 闭 包 计算 项 目 集 的 工作 在 
效率 上 稍 差 一 点 而 已 。 

为 了 计算 拓 广 文法 G' 的 LALR(1) 项 目 集 ， 我们 先 从 初 态 项 目 集 的 核 5 一 .5 开始 ， 然 后 ， 
按 上 述 方法 计算 出 从 石 出 发 的 转移 转换 的 核 。 我 们 继续 计算 出 每 一 个 新 生成 的 核 的 转移 转换 直 
到 我 们 拥有 了 全 部 LR(0) 项 目 集 的 核 为 止 。 


例 4.46 ”让 我 们 再 次 考虑 下 面 的 拓 广 
文法 : 


S >S 
S>L=R |R 
L>x*R | id 
R>L 


图 4-42 文法 (4-20) 的 LR(0) 项 目 集 的 核 
该 文法 的 LR(0) 项 目 集 的 核 如 图 4-42 所 示 。 口 


现在 我 们 着 手 为 LRO) 项 目 集 的 核 的 每 一 个 项 目 都 配 上 适当 的 搜索 符 ( 第 二 个 分 量 )。 为 
了 了 解 搜索 符 是 如 何 从 一 个 项 目 集 ! 传 播 到 goto, XO 的 ， 让 我 们 考虑 了 的 核 中 的 一 个 LR(O) 项 
目 B 一 YC8。 假 设 对 某 个 m，C 基 4n 成 立 (可 能 C =A, n= €), HA 4 一 XB 是 一 个 产生 式 ， 
则 LR(0) 项 目 4 一 XB 在 goto, XP. 

假设 我 们 计算 的 是 LRO 项 目 而 不 是 LRO 项 目 ， 并 且 [B- 一 六 CC8， 避 属于 7， 那么 对 于 哪些 
a 的 值 ，[4 一 XBP，a] 将 在 goto (I, X) PVE? 当然 ， 如 果 a 属于 FIRST(nd), DRAPE CAN 
可 知 [4 一 XB，q] 一 定 在 goto d, DEP. ERPAT, b 的 值 是 无 关 的 ， 我 们 称 a ( 作为 4 一 
Xp 的 一 个 搜索 符 ) 是 自生 的 。 由 此 定义 可 知 ， 作 为 初 态 项 目 集 中 的 项 目 SS 的 一 个 搜索 符 ， 
$ 是 自生 的 。 

但 是 项 目 AXP 的 搜索 符 的 产生 还 有 另 一 种 途径 。 如 果 Nd > e, IWA [4 一 XP, 中 也 
将 在 goto (I, D 中 ， 这 时 我 们 称 搜索 符 从 B->y.C8 传播 到 A 一 X.B。 下面 的 算法 用 来 确定 上 述 
两 种 方式 所 产生 的 搜索 符 。 


算法 4.12 确定 搜索 符 。 
输入 : 一 个 LR(O) 项 目 集 7 的 核 K 和 一 个 文法 符号 X。 


输出 : 对 于 goto, X 中 的 核 项 目 ， 由 7 中 的 项 目 自生 的 搜索 符 ， 以 及 对 于 PRR, 
搜索 符 从 这 些 项 目 将 会 传播 到 goto I, XY) 中 的 核 项 目 中 。 


方法 : 算法 如 图 4-43 所 示 ， 它 使 用 一 个 哑 搜 索 符 # 来 检测 出 现 超前 扫描 符号 传播 的 情形 。 
口 


现在 我 们 来 考虑 如 何 找到 与 LR(0) 项 目 集 的 核 中 的 每 个 项 目 相关 的 搜索 符 。 首 先 ， 我 们 
知道 ，$ 是 LR(0) 初 态 项 目 集 的 项 目 S$' 一 .5 的 搜索 符 ， 用 算法 4.12 可 以 为 每 个 核 的 所 有 项 目 
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列 出 其 全 部 自生 搜索 符 。 然 后 ， 让 这 些 自生 搜索 符 进行 传播 ， 直 到 不 能 再 传播 为 止 。 有 许 
多 种 不 同 的 传播 方法 ， 这 些 方 法 在 某 种 意义 上 记录 已 经 传播 到 一 个 项 目的 “新 ”搜索 符 ， 


但 这 些 “ 新 ”的 搜索 符 没有 再 继续 传播 出 去 ， 下 面 的 算法 描述 了 一 种 将 搜索 符 传播 到 全 部 
项 目的 技术 。 


for 上 K 中 每 一 项 B 一 y.6 do begin 
J' := closure ({[B—Y:6, #]}); 
if [4 一 oxX.B, ale J’ 其 中 a 不 是 # then 


对 于 goto(1， 加 中 的 核 项 目 4 一 aX-B， 搜 索 符 a 是 自生 的 : 
if (A>a-XB, #] e J then 


搜索 符 从 7 中 的 Boyd 传播 到 goro(1，X) 中 的 A 一 aXB 








图 4-43 搜索 符 的 自生 与 传播 的 发 现 


算法 4.13 计算 LALR(1) 项 目 集 族 的 核 。 

RA: HT SEG’. 

输出 : 文法 G' 的 LALR(1) 项 目 集 族 的 核 。 

方法 : 

1. 利用 上 述 方法 ， 构 造 G 的 LR(0) 项 目 集 的 核 。 

2. 对 每 个 LR(0) 项 目 集 的 核 和 文法 符号 X 应 用 算法 4.12， 确 定 出 哪些 搜索 符 对 于 goto(I, X) 
中 的 核 项 目 是 自生 的 ， 并 确定 出 从 哪些 7 中 的 项 目 出 发 搜索 符 可 以 传播 到 在 goto, XP HIZ 
项 目 中 去 。 

3. 对 于 每 个 项 目 集 的 每 个 核 项 目 ， 初 始 化 一 个 表 ， 使 之 给 出 与 之 相 联系 的 各 个 搜索 符 。 开 
始 时 ， 与 每 一 个 项 目 相 联系 的 搜索 符 仅 是 那些 在 (2) 中 确定 的 自生 搜索 符 。 

4. 反复 遍历 所 有 和 集合 中 的 核 项 目 。 当 我 们 访问 一 个 项 目 i 时 ， 利 用 (2) 中 所 建立 的 信息 来 查 
看 ;能 将 它 的 搜索 符 传播 到 哪些 核 项 目 。 把 ;的 当前 搜索 符 集合 附加 到 已 经 与 :相关 联 的 各 个 项 目 
中 去 ， 即 附加 到 i 已 将 其 搜索 符 传播 到 达 的 那些 项 目 中 去 。 继 续 遍 历 核 项 目 ， 直 到 没有 新 的 搜 
索 符 被 传播 为 止 。 口 


例 4.47 下 面 为 上 例 中 的 文法 构造 LALR(1) 项 目 集 的 
核 ， 该 文法 的 LR(0) 项 目 集 的 核 如 图 4-42 所 示 。 当 我 们 把 
算法 4.12 应 用 到 项 目 集 的 核 时 ， 计 算 ([s'S, AAA] 
包 ， 结 果 是 ; 


S — S, # 
S > -L=R, # 
S > R, # 
L > :*R, #/= 
L > ‘id, #/= 
R > ‘L, # 


在 该 闭 包 中 有 两 项 可 导致 搜索 符 的 自生 ， 项 目 [ZL 一 *R, =] 
使 得 “=” 是 六 中 的 核 项 目 L 一 *.R 的 自生 搜索 符 ， 而 项 
H [Lm id, =) 使 得 “=” 是 4; 中 的 核 项 目 L>id 的 自生 








图 4-44 搜索 符 的 传播 
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搜索 符 。 

算法 4.13 的 第 2 步 所 确定 的 核 项 目 之 中 的 搜索 符 的 传播 方式 如 图 4-44 所 示 。 例 如 , b 在 符号 
S, L, R，* 和 id 之 上 的 转移 分 别 是 h, b, b, LM Io XF 厂 ， 我 们 只 得 到 含有 一 个 核 项 目 
[5 一 -S$, A BHE. FE, SS 把 它 的 搜索 符 传播 到 1 至 4; 的 每 个 核 项 目 。 

在 图 4-45 中 ， 我 们 描述 了 算法 4.13 的 第 3 和 第 4 步 ， 标 有 “初始 ”的 一 列 给 出 了 每 个 核 项 目的 
HERR. EROH, JERI $ 由 五 的 8 
一 :8 传播 到 图 4-44 中 列 出 的 6 个 项 目 。 搜 索 
符 = 由 五 中 的 LR 传播 到 中 的 LR. Foa | Pai | 第 3 通 
和 1s 中 的 RL.。 它 还 传播 给 它 自己 以 及 I 
中 的 Lid+， 但 这 些 搜索 符 已 经 出 现 过 了 。 
在 第 2 遍 和 第 3 遍 ， 仅 有 的 可 被 传播 的 新 搜 
索 符 是 $， 这 是 在 第 2 遍 的 和 的 后 继 和 
在 第 3 遍 的 1 的 后 继 中 发 现 的 。 在 第 4 遍 就 
没有 新 的 搜索 符 可 传播 了 ， 所 以 搜索 符 的 
最 后 集合 如 图 4-45 的 最 右 一 列 所 示 。 

注意 ， 例 4.39 中 利用 SLR 方 法 所 出 现 的 
移动 - 归 约 冲突 在 这 里 运用 LALR 技 术 时 已 
经 不 存在 了 ， 原 因 是 只 有 搜索 符 $ 与 1 中 的 
S>L FAX, MW, MERAH S> L-=R 
产生 的 = 执行 移 进 时 不 会 产生 冲突 。 口 








图 4-45 搜索 符 的 计算 


4.7.7 LR 语法 分 析 表 的 压缩 

一 个 典型 程序 设计 语言 的 文法 有 50 ~ 100 个 终结 符 和 100 个 产生 式 ， 它 的 LALR 语 法 分 析 表 
可 能 有 几 百 个 状态 ， 它 的 action 函数 或 许 有 20 000 个 输入 项 ， 每 项 至 少 需要 8 位 进行 编码 。 显 
然 ， 寻 找 一 种 比 二 维 数组 更 有 效 的 编码 非常 重要 ， 我 们 简要 介绍 几 种 用 于 压缩 LR 语法 分 析 表 
的 action RAN goto 域 的 技术 。 

压缩 action 域 的 一 种 有 用 技术 是 基于 这 样 一 点 ， 即 action 表 中 经 常 有 许多 行 是 相同 的 。 如 
图 4-40， 状 态 0 和 状态 3 就 具有 相同 的 action 表 项 ， 状 态 2 和 6 也 是 ， 于 是 我 们 就 能 节省 很 大 的 空 
间 ， 时 间 开 销 也 很 少 。 如 果 我 们 对 每 个 状态 建立 一 个 指向 一 维 数组 的 指针 ， 则 相同 表 项 的 指针 
指向 同一 个 位 置 。 为 存 取 这 个 数组 的 信息 ， 我 们 给 每 个 终结 符 分 配 一 个 从 0 到 终结 符 总 数 减 1 的 
整数 ， 并 把 这 个 数 作 为 对 于 每 个 状态 的 指针 值 的 偏 移 量 。 给 定 一 个 状态 ， 第 i 个 终结 符 的 分 析 
动作 保存 在 那个 状态 指针 值 下 的 第 i 个 位 置 上 。 

为 每 个 状态 的 动作 创建 一 个 列表 可 进一步 提高 空间 的 利用 效率 ， 但 要 以 轻微 降低 语法 分 析 
器 的 速度 为 代价 ( 一 般 认 为 这 是 一 种 合理 的 折衷 ， 因 为 LR 式 的 语法 分 析 器 占用 整个 编译 时 间 
的 很 少 一 部 分 )。 列 表 由 (终结 符 ， 动 作 ) 对 组 成 。 频 繁 发 生 的 动作 放 在 列表 的 尾部 ， 并 可 用 
符号 “any” 代 赫 一 个 终结 符 ， 这 意味 着 如 果 当 前 输入 符号 没有 在 列表 中 发 现 ， 则 不 管 输入 是 
什么 都 将 执行 这 个 动作 。 此 外 ,对 一 行 上 的 错误 表 项 可 用 归 约 动作 安全 取代 。 以 后 在 移 进 之 前 ， 
错误 将 会 被 检测 到 。 


例 4.48 ”考虑 图 4-31 的 语法 分 析 表 ， 我 们 首先 注意 到 状态 0，4，6 和 7 的 动作 相同 ， 因 此 可 
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以 用 如 下 列表 描述 它们 |; 
符号 动作 
id s5 
( s4 
any error 
状态 1 也 有 一 个 类 似 的 列表 : 
符号 动作 
十 s6 
$ acc 
any error 


在 状态 2， 我 们 可 以 用 r2 替代 error 错误 ) 表 项 ， 故 对 任 一 除 * 以 外 的 输入 ， 都 将 用 产生 
式 2 进 行 归 约 ， 所 以 状态 2 的 列表 是 : 


符号 动作 
* s7 
any r2 


状态 3 只 有 error 表 项 和 r4， 可 以 用 后 者 代替 前 者 ， 所 以 状态 3 的 列表 仪 由 (any，r4) 组 成 ， 
状态 5,10,11 可 以 类 似 地 进行 处 理 。 状 态 8 的 列表 是 : 


符号 动作 
十 s6 
) sl! 
any error 
而 状态 9 的 列表 为 : 
符号 动作 
* 57 
any rl 口 


通过 列表 也 可 以 对 goto 表 进 行 编码 ， 但 在 此 为 每 个 非 终结 符 A 构造 序 对 列表 看 起 来 效率 
更 高 。A 的 列表 中 序 对 的 格式 为 (current_state ，next_state )， 含义 为 
goto [current_state, A] = next_state 
因为 goto 表 的 任 一 列 只 有 很 少 的 状态 ， 所 以 这 个 方法 很 有 有用。 原因 是 非 终结 符 4 的 goto 
项 只 能 是 从 这 样 的 项 目 集 导 出 的 状态 ， 在 这 些 项 目 集 的 项 中 ,4 在 点 的 左边 。 如 果 XAY, W 
点 左边 为 X 和 了 的 项 不 会 出 现在 同一 个 项 目 集中 。 因 此 每 个 状态 最 多 出 现在 一 个 goto 列 中 。 
要 进一步 节省 空间 ， 我 们 注意 到 在 goto 表 中 的 错误 表 项 从 来 没有 被 考虑 过 ， 因 而 ， 我 们 


可 以 用 最 常用 的 非 错 误 表 项 替换 这 些 错误 表 项 ， 使 该 常用 表 项 成 为 默认 值 ， 并 把 当前 的 状态 蔡 
HR “any”. 


例 4.49 KABE- F 列 对 应 状态 7 的 表 项 为 10， 其 他 表 项 或 者 是 3， 或 者 是 error。 
我 们 可 以 用 3 替换 error 表 项 从 而 为 列 创建 如 下 列表 : 


current_state next_state 
10 
any 3 


同样 ，7 列 相应 的 列表 为 : 
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current_state next_state 
6 9 
any 2 


Xt E 列 可 以 选择 1 或 8 作为 默认 值 ， 不 管 哪 种 情况 都 需要 两 个 表 项 。 例 如 ， 可 以 为 E 列 创建 下 
述 列表 : 


current_state next_state 
4 8 
any 1 C 


如 果 读 者 合计 一 下 本 例 和 前 例 所 创建 列表 的 表 项 ， 再 加 上 从 状态 到 动作 列表 以 及 从 非 终 
符 到 next_state 列表 的 指针 ， 就 不 会 对 实现 图 4-31 夭 阵 所 节省 的 空间 有 什么 印象 。 然 而 ， RAR 
DEB IX PVF TRE, HEROE, Bi Be BS as A hs BE E E Hs ERR Ts YU] 
10%. 

还 应 指出 ，3.9 节 所 讨论 的 对 有 穷 自动 机 的 表 压 缩 方法 也 可 用 于 LR 语法 分 析 表 ， 这 些 方 法 
的 应 用 将 在 练习 中 进行 讨论 。 


4.8 二 义 文法 的 应 用 


任何 二 义 文法 都 不 是 LR 文法 ， 因 而 不 属于 前 一 节 所 讨论 的 任何 一 类 文法 ， 这 是 一 条 定理 。 
但 是 ， 正 如 在 本 节 将 要 看 到 的 ， 某 些 二 义 文法 对 语言 的 说 明和 实现 非常 有 用 。 对 于 像 表 达 式 这 
样 的 语言 结构 ， 二 义 文法 比 任何 等 价 的 非 二 义 文法 提供 的 说 明 都 要 更 短 、 更 自然 。 另 外 ， 为 了 
便于 对 一 些 特例 语法 结构 进行 优化 ， 需 要 将 它们 从 一 般 语 法 结构 中 分 离 出 来 。 通 过 使 用 二 义 文 
法 ， 往 文法 中 增加 新 的 产生 式 ， 我 们 就 能 标识 这 些 特例 结构 ， 这 是 二 义 文法 的 另 一 种 应 用 。 

必须 强调 ， 昌 然 我 们 使 用 的 文法 是 二 义 性 的 ， 但 在 所 有 情况 下 都 说 明了 消除 二 义 的 规则 ， 
以 保证 对 每 个 句子 只 有 一 棵 分 析 树 。 这 样 ， 整 个 语言 的 说 明 仍然 是 无 二 义 的 。 另 外 ， 我 们 还 
强调 应 该 慎 用 二 义 结构 ， 并 在 严格 控制 的 方式 下 使 用 。 和 否则 不 能 保证 语法 分 析 器 将 识别 什么 
样 的 语言 。 
4.8.1 使 用 优先 级 和 结合 规则 来 解决 分 析 动 作 的 冲突 

考虑 程序 设计 语言 中 的 表达 式 。 下 面包 含 操作 符 + 和 * 的 算术 表达 式 文法 是 一 义 的 ， 因为 它 
没有 指出 操作 符 + 和 * 的 结合 规则 和 优先 级 : 


E>+E+E|Ex*E|(E) |id (4-22) 


下 面 的 无 二 义 文法 产生 同样 的 语言 ， 但 赋予 了 + 一 个 比 * 低 的 优先 级 ， 并 且 两 个 操作 符 都 是 左 结 
合 的 。 


E~E+TIT 
T+T*eF IF 


(4-23) 
F > (E) | id 


有 两 个 理由 可 以 说 明 为 什么 我 们 愿意 用 文法 (4-22) 而 不 是 文法 (4-23)。 首 先 ， 正 如 我 们 将 要 
看 到 的 那样 ， 我 们 可 以 方便 地 改变 操作 符 + 和 * 的 结合 规则 及 优先 级 而 无 需 修改 文法 (4-22) 中 的 
产生 式 及 结果 语法 分 析 器 中 的 状态 数 。 其 次 ， 文 法 (4-23) 的 语法 分 析 器 要 花 一 部 分 时 间 来 完成 
产生 式 ET 和 TF 的 妇 约 ， 它 们 的 作用 只 是 突出 结合 规则 和 优先 级 。 文 法 (4-22) 的 语法 分 析 
器 不 会 将 时 间 消 耗 在 归 约 这 样 的 单产 生 式 ( 右 部 只 有 一 个 非 终结 符 的 产生 式 。 一 一 译 者 注 ) 上 。 
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用 ESE 拓 广 后 的 文法 (4-22) 的 LR(0) 项 
目 集 如 图 4-46 所 示 。 因 为 文法 (4-22) 是 二 义 的 ， 
如 果 我 们 试图 从 这 些 项 目 集 生成 LR 语法 分 析 
K, 语法 分 析 动 作 会 有 冲突 。 与 项 目 集 厂 和 
Te 对 应 的 状态 会 产生 这 些 冲突 。 假 设 我 们 用 
SLR 方 法 来 构造 分 析 动 作 表 ,产生 的 归 约 
E>E+E 与 面临 + 和 * 进 行 移 进 之 间 的 冲突 不 
能 解决 ， 因 为 + 和 * 都 在 FOLLOW(E) 中 ; 另 
一 个 由 有 产生 的 冲突 在 归 约 EE * 与 面临 
+ 和 * 进 行 移 进 之 间 。 事 实 上 ， 用 任何 一 种 LR 
语法 分 析 表 的 构造 方法 都 会 产生 这 些 冲 突 。 

但 是 ， 这 些 问题 可 以 用 + 和 * 的 优先 级 和 
结合 信息 来 解决 。 考 虑 输入 id + id «id, È 
使 得 基于 图 4-46 的 语法 分 析 器 在 处 理 id + id 
后 进入 状态 7， 形 成 如 下 格局 : 





栈 输入 
OEI+4E7 * id $ 
如 果 * 的 优先 级 高 于 +， 语 法 分 析 器 应 把 * 图 4-46 文法 (4-22) 拓 广 后 的 LR(0) 项 目 集 


移 进 栈 ， 准 备 将 * 和 它 两 边 的 id 归 约 成 一 个 表达 式 。 这 正 是 识别 相同 语言 的 图 4-31 的 SLR 语 法 
分 析 器 所 要 做 的 。 另 一 方面 ， 如 果 + 的 优先 级 高 于 *， 语 法 分 析 器 应 该 将 E+E 归 约 成 BE。 这 样 ， 
根据 + 和 * 的 相关 优先 级 就 可 以 解决 状态 7 中 用 E>E+E 归 约 和 面临 x 进行 移 进 之 间 的 冲突 。 

如 果 输 入 是 ia + id + id WIA, ADT ARAL EES id + id 后 仍 将 到 达 栈 内 容 为 OE1 + 4E7 
的 格局 。 在 状态 7 面临 + 时 仍 有 移动 - 归 约 冲突 ， 现 在 是 由 操作 符 + 的 结合 规则 来 决定 应 如 何 解 
决 冲突 。 如 果 + 是 左 结合 的 , 正确 的 动作 是 用 EE + EE 归 约 , 即 第 一 个 + 前 后 的 id 应 看 成 一 组 。 
这 个 选择 和 例 4.34 中 文法 的 SLR 语 法 分 析 器 的 动作 是 一 致 的 。 

总 之 ， 假 如 + 是 左 结合 的 ， 在 状态 7 面临 + 时 应 该 用 E-E+E 归 约 ; 如 果 * 的 优先 级 高 于 +， 
在 状态 7 面临 * 时 应 该 移 进 。 可 以 类 似 地 讨论 状态 8， 最 后 得 出 如 下 结果 : 如 果 * 是 左 结合 的 且 优 
先 级 高 于 +， 那 么 不 论 面临 + 还 是 面临 x*， 语 法 n 
分 析 器 在 状态 8 的 动作 都 是 用 E>ExE 归 约 。 原 
因 是 面临 + 时 ，* 的 优先 级 高 于 +， 而 面临 时 ， 
# 是 左 结 合 的 。 

按 这 种 方式 处 理 ， 得 到 如 图 4-47 所 示 的 LR 
分 析 表 , 产生 式 1~ 4 分 别 是 E>E+ E, E>E*E, 
E> (E) 和 Eid。 有 趣 的 是 ， 从 图 4-31 基 于 
文法 (4-23) 的 SLR 语 法 分 析 表 中 删 去 用 单产 生 式 
ET 和 ESF 所 进行 的 归 约 ， 可 以 得 到 类 似 的 
动作 表 。 像 (4-22) 那 样 的 二 义 文法 在 LALR 分 析 
和 规范 LR 分 析 中 可 以 用 类 似 的 方法 处 理 。 图 4-47 文法 (4-22) 的 分 析 表 
4.8.2 Rele xt 

再 次 考虑 下 面 的 条 件 语句 文法 : 
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stmt — if expr then stmt else stmt 
| if expr then stmt 
| other 


在 4.3 节 已 提 到 过 ， 这 个 文法 是 二 义 的 ， 因 为 它 没有 解决 悬空 else 的 二 义 性 。 为 了 简化 讨论 ， 
让 我 们 考虑 上 面 文法 的 抽象 ， 用 i 代表 if expr then, H e 代表 else， 并 用 a 代表 所 有 其 他 产生 
式 , 然后 加 上 拓 广 的 产生 式 8 一 93， 重 写 文法 如 下 ; 

S' ~ 

S > iSeS | iS |a (4-24) 

文法 (4-24) 的 LR(0) 项 目 集 如 图 4-48 所 示 。 
(4-24) 的 二 义 性 表现 在 u 的 移动 - 归 约 冲突 
Es S> iSeS 要 求 移 进 e, 而 FOLLOW(S) 
={e, $}, MUMASiS. 要求 面临 输入 e 
时 进行 归 约 。 

现在 回 到 证 … then … else 术语 ， 即 if 
expr then stmt 在 栈 顶 并 且 else 是 第 一 个 输 
人 符号 时 ， 究 竟 是 移 进 else( 移 进 e) 还 是 将 
if expr then stmt 归 约 成 stmt ( 按 SiS JA 
约 ) 呢 ? 答案 是 应 该 移 进 else。 因 为 它 要 和 
前 面 一 个 then 配对 。 用 文法 (4-24) 的 术语 ， 图 4-48 拓 广 文法 (4-24) 的 LR(0) 状 态 
输入 为 e (代表 else) 时 ， 只 能 证 它 成 为 以 栈 顶 的 is 开始 的 右 部 的 一 部 分 。 如 果 e 后 面 的 输入 
不 能 分 析 成 5 而 形成 右 部 iSeSs， 那 么 ， 分 析 将 无 法 继续 。 

我 们 得 出 的 结论 是 ， 要 解决 L 中 的 移动 - 归 约 冲突 ， 应 该 首先 移 进 e。 按 照 这 个 解决 办 法 ， 
由 图 4-48 的 项 目 集 构造 的 SLR 语 法 分 析 表 如 图 4-49 所 示 。 产 生 式 1 ~ 3 分 别 是 S—iSeS, SiS 和 
S—ao 

例如 ， 若 输入 是 iiaea， 语 法 分 析 器 的 动作 如 图 4-50 所 示 ， 它 正确 地 解决 了 悬空 else 问题 。 
在 第 (3) 行 ， 面 临 e 时 ， 状 态 4 选 择 移 进 ; 而 在 第 (9) 行 ， 面 临 $ 时 ， 状 态 4 按 Sis 进行 归 约 。 













0i 2i 25 4e 5a 3 
0i 22S 4e 5S6 
01254 

OS 1 


图 4-49 抽象 的 悬空 else 文 法 的 LR 语 法 分 析 表 图 4-50 输入 为 iiaea 时 的 分 析 动 作 


作为 比较 ， 如 果 不 允 许 用 二 义 文法 说 明 条 件 语句 ， 那 么 我 们 将 不 得 不 使 用 (4-9) 那 样 的 繁琐 
文法 。 
4.8.3 特例 产生 式 引起 的 二 义 性 

用 来 说 明 二 义 文 法 用 途 的 最 后 一 个 例子 是 下 面 这 种 情况 ， 即 引 人 一 个 额外 的 产生 式 来 标识 
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语法 结构 的 特例 ， 这 比 用 其 余 的 产生 式 来 标识 更 自然 一 些 ,但 如 果 我 们 加 入 这 个 额外 的 产生 式 
就 会 引起 分 析 动 作 的 冲突 。 这 种 冲突 的 解决 需要 消除 二 义 性 规则 ， 这 个 规则 指出 ， 如 果 出 现 归 
约 - 归 约 冲突 ， 按 特例 产生 式 归 约 。 这 样 ， 和 特例 产生 式 相 联 的 语义 动作 允许 用 更 专门 的 措施 
来 处 理 这 些 特例 。 

Kernighan 和 Cherry 在 他 们 的 公式 编排 预 处 理 器 EQN 中 使 用 了 特例 产生 式 ， 这 是 一 个 有 
趣 的 应 用 。 在 EQN 中 ， 数 学 表达 式 的 语法 用 带 下 角 标 操作 符 sub 和 上 和 角 标 操作 符 sup 的 文法 
来 描述 ， 如 文法 片段 (4-25) 所 示 ， 预 处 理 器 用 花 括 号 表示 复合 表达 式 ，c 是 表示 任意 正文 串 的 
记号 。 


248 
l 
253 


(1) E > E sub E sup E 
(2) E> EsubE 


(3) E> Esupé (4-25) 
(4) E>{E} 
(5) Ere 


文法 (4-25) 是 二 义 的 有 以 下 几 个 
原因 。 该 文法 没有 说 明 操 作 符 sub 


: E'~:E 


: E-~E-subE sup E 


和 sup 的 结合 规则 和 优先 级 。 即 使 Ei Ee E EE 

由 sub 和 sup 的 结合 规则 和 优先 级 E > EsupE E >{E} 
引起 的 二 义 性 解决 了 ， 比 如 规定 这 Ft} bE 
两 个 操作 符 的 优先 级 相同 并 且 都 是 sb E sup E 
右 结合 的 ， 该 文法 仍然 是 二 义 的 。 EE E — E-sub E 

这 是 因为 产生 式 (1) 分 离 出 了 由 产生 Rp PE me 


式 (2) 和 (3) 产 生 的 表达 式 的 一 种 特 
W, EPEAN E sub E sup E 的 表达 式 。 
把 这 种 形式 的 表达 式 处 理 为 一 种 特 
例 的 理由 是 , 像 a sub i sup 2 这 样 
的 表达 式 应 该 排 成 a2?， 而 不 是 a? 
的 形式 。 只 有 加 上 特例 产生 式 后 ， 
Kernighan 和 Cherry 才 使 得 EQN 能 
够 产生 这 种 特殊 的 输出 。 

. 为 了 理解 LR 语法 分 析 器 怎样 
处 理 这 种 二 义 性 ， 我 们 来 构造 文法 
(4-25) 的 SLR 语 法 分 析 器 。 这 个 文法 
的 LR(0) 项 目 集 如 图 4-51 所 示 。 在 这 
个 族 中 ， 有 3 个 项 目 集 产生 分 析 动 作 
mE, b, 五 和 六 在 面临 sub 或 sup 
时 产生 移动 - 归 约 冲突 ， 因 为 文法 
没有 说 明 这 两 个 操作 符 的 优先 级 和 
结合 规则 。 如 果 规 定 它们 具有 相同 
的 优先 级 而 且 是 右 结 合 的 ， 这 些 语 
法 分 析 动 作 的 冲突 就 都 可 以 解决 。 
因此 ， 每 种 情况 都 是 移 进 优先 。 


E > E-sub E 
E > E-sup E 


: EE} 


E > ʻE sub E sup E 
E >'E sub E 

E > -E sup E 
E>{E} 

Ec 


; Eo 


: EE sub E supE 
E >E sub-E 

E — -E sub E sup E 
E >'E sub E 

E >'E sup E 
E+E} 

E >c 


: E >E supE 


E >-E sub E sup E 
E > -E sub E 

E > -E sup E 
E=>-{E} 

E >c 


E-E-supE 


: E > E-sub E sup E 


E > E-sub E 
E => E'sup E 
E >E supE: 


: E>{EF 


: E >E sub E sup E 


E = E supE 

E >-E sub E sup E 
E >'E sub E 

E >'E sup E 
E~{E} 

Eve 


: E > E'sub E sup E 


E >E sub E sup £- 
E > E'sub E 
E > E'sup E 
E => E sup E: 





图 4-51 文法 (4-25) 的 LR(0) 项 目 集 
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六 在 面临 ;和 $ 时 ， 还 产生 归 约 - 归 约 冲突 ， 该 冲突 发 生 在 产生 式 

E > E sub E sup E 

E > E sup E 
之 间 。 当 我 们 看 到 已 经 在 栈 顶 归 约 出 E sub E sup 
互 的 输入 后 ， 六 将 出 现在 栈 项 。 如 果 我 们 用 产生 式 
(1) 来 解决 归 约 - 归 约 冲突 ， 我 们 将 把 形 如 E sub E 
sup E 的 式 子 当成 特例 。 使 用 这 种 消除 二 义 性 的 规 
则 ， 可 以 得 到 如 图 4-52 所 示 的 SLR 语 法 分 析 表 。 

构造 一 个 分 离 特 例 语法 结构 的 无 二 义 文法 是 
非常 困难 的 。 为 了 体会 其 困难 程度 ， 请 读者 为 文 
法 (4-25) 构 造 一 个 等 价 的 无 二 义 文 法 ， 该 文法 将 把 
#240 E sub E sup E 的 表达 式 分 离 出 来 。 

4.8.4 LR 语法 分 析 中 的 错误 恢复 

LR 语法 分 析 器 在 访问 动作 表 时 车 遇 到 出 错 表 
项 ， 就 检测 出 一 个 错误 ， 但 它 在 访问 转移 表 时 决 
不 会 检测 出 错误 。 与 算 符 优先 语法 分 析 器 不 同 的 是 ，LR 语 法 分 析 器 只 要 发 现 已 扫描 的 输入 出 
现 一 个 不 正确 的 后 继 就 会 立即 报告 错误 。 规 范 LR 语 法 分 析 器 在 报告 错误 之 前 不 会 进行 任何 无 
效 归 约 。SLR 语 法 分 析 器 和 LALR 语 法 分 析 器 在 报告 错误 前 可 能 执行 几 步 归 约 ， 但 它们 决 不 会 
把 出 错 点 的 输入 符号 移 进 栈 。 

在 LR 分 析 中 ， 可 以 采用 下 面 的 方法 实现 紧急 方式 的 错误 恢复 ;从 栈 项 开始 退 栈 ， 直 至 发 
现在 特定 非 终结 符 4 上 具有 转移 的 状态 s 为 止 ; 然后 丢弃 零 个 或 多 个 输入 符号 ， 直 至 找到 符号 
a 为 止 ， 它 是 4 的 合法 后 随 符号 ; 接着 ， 语 法 分 析 器 把 状态 gotols, A] 压 进 栈 ， 并 恢复 正常 分 
析 。4 的 选择 可 能 不 惟一 ， 一 般 4 应 是 代表 主要 程序 结构 的 非 终结 符 ， 如 表达 式 、 语 句 或 程序 
HR, 例如， 车 4 是 非 终结 符 stmt， 那 么 a 可 以 是 分 号 或 end, 

这 种 恢复 方法 实质 是 试图 将 含有 语法 错误 的 短语 分 离 出 来 。 诸 法 分 析 器 认为 由 4 推导 出 的 
串 含 有 一 个 错误 ， 该 串 的 一 部 分 已 经 处 理 过 ， 处 理 的 结果 是 处 于 栈 项 的 状态 序列 ， 该 串 的 剩余 
部 分 仍 在 输入 中 。 语 法 分 析 器 试图 跳 过 该 串 的 剩余 部 分 ， 在 输入 中 找到 一 个 符号 ， 它 是 4 的 合 
法 后 随 符号 。 通 过 从 栈 中 移出 一 些 状 态 ， 跳 过 若干 输入 符号 ， 并 把 gotols, Al 推进 栈 ， 语 法 分 
析 器 假装 已 发 现 了 4 的 一 个 实例 ， 并 恢复 正常 分 析 。 

短语 级 恢复 的 实现 是 通过 检查 LR 分 析 表 的 每 个 出 错 表 项 ， 并 根据 语言 的 使 用 情况 确定 最 
可 能 引起 该 错误 的 程序 员 最 容易 犯 的 错误 ， 然 后 为 该 表 项 编 一 个 适当 的 错误 恢复 例 程 。 该 例 程 
大 概 会 采用 一 种 适合 于 相应 出 错 表 项 的 方式 来 修改 栈 顶 符号 和 (或) 第 一 个 输入 符号 。 

与 算 符 优先 语法 分 析 器 相 比 ， 设 计 LR 语 法 分 析 器 的 专门 错误 处 理 例 程 要 容易 一 些 。 尤 其 
是 ， 不 必 担 心 不 正确 的 归 约 ，LR 请 法 分 析 器 所 执行 的 归 约 保证 是 正确 的 。 于 是 ， 我 们 可 以 在 
语法 分 析 表 动作 域 的 每 个 空白 项 填 上 一 个 指针 , 它 指 向 编译 器 设计 者 为 之 设计 的 出 错 处 理 例 程 。 
该 例 程 的 动作 可 能 包括 从 栈 顶 和 (或 ) 输 入 中 插 人 或 删除 符号 ， 改 变 或 变换 输入 符号 ， 就 像 算 符 
优先 语法 分 析 器 那样 ， 所 做 的 选择 不 应 使 LR 语 法 分 析 器 陷入 死 循 环 。 保 证 至 少 有 一 个 输入 符 
号 被 移 走 或 最 终 被 移 进 ， 或 者 保证 在 到 达 输 入 的 末尾 时 保证 栈 最 终 会 缩短 ， 这 样 的 策略 足以 防 
止 上 述 问题 的 发 生 。 要 避免 从 栈 中 弹出 覆盖 一 个 非 终结 符 的 状态 ， 因 为 这 种 修改 从 栈 中 删 掉 了 
已 经 成 功 分 析 的 一 个 结构 。 
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图 4-52 文法 (4-25) 的 语法 分 析 表 
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例 4.50 ”再 次 考虑 下 面 的 表达 式 文法 : 
E>E+E | ExE | (E) | id 
图 4-53 给 出 了 该 文法 的 LR 语法 分 析 表 ， 它 是 
由 图 4-47 修 改 而 得 ， 加 上 了 错误 诊断 和 恢复 。 我 
们 还 把 某 些 出 错 表 项 改 成 了 归 约 。 这 些 修 改 会 推 
迟 错误 的 发 现 ， 多 执行 了 一 步 或 几 步 归 约 ， 但 错 
误 仍 将 在 移 进 下 一 个 符号 前 被 捕获 。 图 4-47 中 的 
其 余 空 白 表 项 已 经 改换 成 对 出 错 例 程 的 调用 。 
出 错 处 理 例 程 如 下 。 应 该 注意 ， 这 些 动作 
及 其 所 代表 的 错误 同 例 4.32 中 的 类 似 。 但 是 ， ”图 4-53 带 有 出 错 处 理 例 程 的 LR 语 法 分 析 表 
LR 语 法 分 析 器 中 的 el 通常 由 算 符 优先 语法 分 析 器 的 归 约 处 理 程序 来 处 理 。 
el: /* 处 于 状态 0，2，4，5 时 ， 要 求 输入 符号 为 运算 对 象 的 首 终结 符 ， 即 id 或 左 括 
号 ; 但 遇 到 的 是 +、#* 或 $ 时 ， 则 调用 此 例 程 。*/ 
把 一 个 假想 的 id 压 进 栈 ， 上 面 盖 以 状态 3《〈 状 态 0，2，4 和 5 面临 记 的 转移 ) © 
给 出 诊断 信息 :“ 缺 少 运算 对 象 " 。 
e2: / * 处 于 状态 0，1，2，4 和 5 时 ， 若 遇 到 右 括 号 ， 则 调用 此 例 程 。* / 
从 输入 中 删除 右 括号 。 
给 出 诊断 信息 :“ 右 括号 不 配对 ”。 
e3: /* 处 于 状态 1 或 6 时 ， 期 望 一 个 操作 符 ， 而 遇 到 的 是 id 或 右 括号 ， 则 调用 此 例 程 。*/ 
把 + 压 人 栈 ， 盖 以 状态 4。 
给 出 诊断 信息 :“ 缺 少 操作 符 ”。 
e4: / * 处 于 状态 6 时 期 望 操作 符 或 右 括 导 ， 但 如 果 遇 上 $， 则 调用 此 例 程 。* / 
把 右 括号 压 人 栈 ， 盖 以 状态 9。 
给 出 诊断 信息 :“ 缺 少 右 括号 ”。 
以 例 4.32 中 的 错误 输入 id + ) 为 例 ， 语 法 分 析 器 进入 的 格局 序列 如 图 4-54 所 示 。 口 





action 
| 
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错误 信息 和 动作 


oid3 

051 

DOE1+4 

DE1+4 “unbalanced right parenthesis" 
el 删 掉 右 括号 

0E! + 4id3 “missing operand” 
elfEid3 He ARR 

OE1+4E7 


OE 1 


图 4-54 LR 语法 分 析 器 的 语法 分 析 和 错误 恢复 
4.9 语法 分 析 器 的 生成 器 
本 节 说 明 怎 样 用 语法 分 析 器 的 生成 器 来 辅助 构造 编译 器 的 前 端 。 我 们 将 使 用 LALR 语 法 分 


日 ”注意 , 文法 符号 实际 上 没有 放 在 栈 中 。 把 它们 想像 成 在 那里 有 助 于 我 们 想起 状态 所 表示 的 符号 。 
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析 器 的 生成 器 Yacc 作 为 讨论 的 基础 ， 因 为 它 实 现 了 前 两 节 讨论 的 许多 概念 ， 而 且 应 用 广泛 。 
Yacc 是 “yet another compiler-compiler” 的 缩写 ， 它 是 20 世 纪 70 年 代 初 期 语法 分 析 器 的 生成 器 
盛行 时 的 产物 ， 它 的 第 一 板 本 是 S.C.Johnson 设 计 的 。Yacc 在 UNIX 系 统 下 可 作为 命令 使 用 ， 并 
已 帮助 实现 了 几 百 个 编译 器 。 
4.9.1 语法 分 析 器 的 生成 器 Yacc 

一 个 翻译 器 可 用 Yacc 按 图 4-55 说 明 的 方式 构造 出 来 。 首 先 ， 准 备 一 个 包含 翻译 器 的 Yacc 说 
明 的 文件 ， 如 translate.y。UNIX 系 统 的 命令 


yacc translate.y 
把 文件 translate.y 翻译 成 名 为 y .tab.c 的 C 程 序 ， 使 用 的 是 算法 4.13 中 描述 的 LALR 方 法 。 


程序 yx. tab .c 中 包含 用 C 语 言 编 号 的 LALR 语 法 分 析 器 和 其 他 用 户 准 备 的 C 语 言 例 程 。 为 节省 ”1257 
空间 ， 用 4.7 节 描述 的 方法 对 LALR 语 法 分 析 表 进行 了 压缩 。 用 命令 


cc y.tab.c -ly 


对 y .tab.c 进 行 编译 ， 其 中 ，1y 表 示 使 用 Yacc 说 明 





y.tab.c 

LR 分 析 程 序 的 库 。 编 译 后 得 到 目标 程序 translate.y 
a .ouc， 它 完成 Yace 源 程序 指定 的 翻译 。 © y.tab.c ARR a.out 
如 果 需 要 其 他 过 程 ， 它 们 可 以 和 y .tab.c 
一 起 编译 或 装 入 ， 就 像 使 用 普通 的 C 程 序 一 as a h as 
t = 

Yacc 源 程序 由 3 部 分 组 成 图 4-55 用 Yacc 建 立 翻 译 器 

声明 

%% 

翻译 规则 

%% 

用 C 语 言 编写 的 支持 例 程 


例 4.51 为 说 明 怎样 准备 Yacc 源 程序 ， 让 我 们 构造 一 个 简单 的 台式 计算 器 ， 它 读 和 一 个 算 
术 表 达 式 ， 计 算 并 打印 它 的 值 。 我 们 将 从 下 面 的 算术 表达 式 文法 出 发 ， 建 立 一 个 台式 计算 器 : 


E~E+T|T 
T>T*F |F 
F > (E) | digit 


记号 digit 是 0 ~ 9 的 单个 数字 。 由 该 文法 得 到 的 Yacc 台 式 计算 器 程序 如 图 4-56 所 示 。 口 
(1) 声明 部 分 。Yacc 程 序 的 声明 部 分 由 可 任 选 的 两 节 组 成 。 第 一 节 处 于 分 界 符 %{ 和 %} 之 间 ， 


它 是 一 些 普通 的 C 语 言 声明 。 第 二 部 分 和 第 三 部 分 的 翻译 规则 或 过 程 所 使 用 的 所 有 临时 声明 都 
放 在 这 里 。 在 图 4-56 中 ， 这 一 节 只 有 一 个 包含 语句 


#include <ctype.h> 
它 使 得 C 的 预 处 理 程序 包含 标准 头 文件 <ctype .h>， 该 文件 含有 谓词 isdigit。 
声明 部 分 的 第 二 节 是 文法 记号 的 声明 ， 在 图 4-56 中 ， 语 句 


%token DIGIT 


O 名 字 ly 依 赖 于 具体 的 系统 。 
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将 DIGIT 声 明 为 记号 。 这 一 节 说 明 的 记号 可 用 于 Yace 说 明 的 第 二 部 分 和 第 三 部 分 。 


%{ 
#include <ctype.h> 
%} 


%token DIGIT 


%% 
line : expr ’\n’ { printf("%d\n", $1); } 


expr i expr “+” = $1 + $3; } 
term 


term ^+’ factor $1 + $3; } 
factor 


factor : ’(’ expr ’)’' $2; } 
DIGIT 


4% 
yylex() { 
int c; 
getchar(); 
if (isdigit(c)) { 
yylval = c-’0’; 
return DIGIT; 
y 


return c; 





图 4-56 简单 台式 计算 器 的 Yace 说 明 


(2) 翻译 规则 部 分 。 这 一 部 分 位 于 第 一 个 8% 后 面 ， 用 于 放置 翻译 规则 ， 每 条 规则 由 一 个 文 
法 产生 式 和 有 关 的 语义 动作 组 成 。 产 生 式 集合 


<left side> > <alt 1> | <alt2>|--- | <alt n> 
在 Yacc 中 写成 ; 
<left side> i; <alt 1> :语义 动作 1) 


i <alt 2> :语义 动作 2} 


1 «alt n> :语义 动作 n} 


在 Yacc 产 生 式 中 ， 单 引号 括 起 来 的 字符 'c ' 是 由 终结 符号 c 组 成 的 记号 ; 没有 引号 的 字母 数字 
串 若 没 有 声明 为 记号 ， 则 是 非 终结 符 。 右 部 的 各 个 选择 之 间 用 竖 线 隔 开 ， 最 后 一 个 右 部 的 后 面 
用 分 号 ， 表 示 该 产生 式 集 合 的 结束 。 第 一 个 左 部 非 终结 符 是 开始 符号 。 

Yacc 的 语义 动作 是 C 语 名 序列。 在 语义 动作 中 ， 符 号 $$ 表示 左 部 非 终结 符 的 属性 值 ， 而 
$i 表示 右 部 第 i 个 文法 符号 (终结 符 或 非 终 结 符 ) 的 值 。 每 当归 约 一 个 产生 式 时 ， 就 执行 与 之 
相关 联 的 语义 动作 ， 所 以 语义 动作 一 般 是 根据 $i 的 值 计 算 $$ 的 值 。 在 这 个 Yace 说 明 中 ， 两 
个 EE 产生 式 


E-E+T|T 
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及 与 它们 有 关 的 语义 动作 写成 

expr : expr ^+’ term { $$ = $1 + $3; } 

1 term 

注意 ,第 一 个 产生 式 的 非 终 结 符 term 是 右 部 的 第 三 个 文法 符号 ，'+' 是 第 二 个 文法 符号 。 
第 一 个 产生 式 的 语义 动作 把 右 部 的 expr* 和 term 的 值 相 加 ， 把 结果 赋 给 左 部 的 非 终结 符 expr， 
作为 它 的 值 。 我 们 省 略 了 第 二 个 产生 式 的 语义 动作 ， 因 为 右 部 只 有 一 个 文法 符号 时 ， 值 的 复写 
是 默认 的 语义 动作 ， 即 它 的 语义 动作 是 {$$ = $1; }。 

注意 ,我 们 将 一 个 新 的 开始 产生 式 


line > expr ’\n’ { print£("%d\n", $1); } 


加 到 了 这 个 Yacc 说 明 中 。 该 产生 式 的 意思 是 ， 这 个 台式 计算 器 的 输入 是 一 个 表达 式 后 面 跟 一 个 
换行 字符 ， 它 的 语义 动作 是 打印 表达 式 的 十 进 制 值 并 且 换 行 。 

(3) 支持 例 程 部 分 。Yacc 说 明 的 第 三 部 分 是 一 些 用 C 语 言 编写 的 支持 例 程 。 必 须 提 供 名 字 为 
yylex() 的 词法 分 析 器 。 其 他 的 过 程 ， 如 错误 恢复 例 程 ， 如 果 需 要 的 话 ， 也 可 以 加 上 。 

词法 分 析 器 yylex ( ) 返回 二 元 组 (记号 ， 属 性 值 )。 返 回 的 记号 ， 如 DIGIT， 必 须 在 Yacc 说 
明 的 第 一 部 分 声明 。 属 性 值 必 须 通过 Yacc 定 义 的 变量 yy1val 传 给 语法 分 析 器 。 

图 4-56 的 词法 分 析 器 是 非常 粗糙 的 。 它 用 C 函 数 getchar () 每 次 读 人 一 个 输入 字符 ， 如 果 是 
数字 字符 ， 则 将 它 的 值 存 入 变量 yylval 中 ， 返回 记 号 DIGIT， 否 则 将 字符 本 身 作为 记号 返回 。 
4.9.2 用 Yacc 处 理 二 义 文法 

现在 我 们 修改 这 个 Yacc 说 明 ， 使 台式 计算 器 更 加 有 用 。 首 先 ， 我 们 将 允许 台式 计算 器 计算 
表达 式 序列 ， 每 行 一 个 ， 还 允许 表达 式 之 间 有 空白 行 。 为 做 到 这 一 点 ， 将 第 一 条 规则 改 为 : 

lines : lines expr ’\n’ { printf("%g\n", $2); } 

$ lines ‘\n’ 
在 Yacc 中 ， 第 三 行 的 空 选择 表示 e 。 

其 次 ， 我们 将 扩大 表达 式 的 类 ， 使 之 包含 由 多 个 数字 组 成 的 数 ， 包 括 操作 符 +，-( 一 元 和 
二 元 )，* 和 /。 说 明 这 类 表达 式 的 最 简单 的 方法 是 使 用 下 面 的 二 义 文法 : 

E > E+E | E-E |Ex*E|E/E |(E) |-E | number 
最 终 的 Yacc 说 明 如 图 4-57 所 示 。 

因为 图 4-57 的 Yacc 说 明 中 的 文法 是 二 义 的 ，LALR 算 法 将 产生 语法 分 析 动 作 冲 突 。Yacc 会 
报告 产生 的 语法 分 析 动 作 冲 突 的 数目 。 项 目 集 和 语法 分 析 动 作 冲 突 的 描述 可 以 通过 在 调用 Yace 
时 加 -v 选 项 来 获得 。 该 选项 产生 一 个 附加 的 文件 y .output， 它 包含 语法 分 析 时 发 现 的 项 目 集 
的 核 、 由 LALR 算 法 产生 的 语法 分 析 动 作 冲 突 的 描述 以 及 LR 语法 分 析 表 的 可 读 表 示 ， 该 可 读 表 示 
显示 出 语法 分 析 动 作 冲 突 是 怎样 解决 的 。 当 Yacc 报 告 它 发 现 语法 分 析 动 作 冲 突 时 ， 明 智 的 做 法 是 
建立 和 查阅 文件 y.output， 以 了 解 为 什么 会 出 现 分 析 动 作 溃 突 以 及 它们 是 否 已 经 被 正确 解决 。 

BRIER AWHA, AN Yace 将 按 下 面 两 条 规则 解决 所 有 语法 分 析 动 作 的 冲突 : 

1. 归 约 - 妇 约 冲突 的 解决 是 从 冲突 产生 式 中 选择 在 Yace 说 明 中 最 先 出 现 的 那个 产生 式 。 因 
此 ， 为 了 解决 排版 文法 (4-25) 的 冲突 ， 只 要 把 产生 式 (1) 放 在 产生 式 (3) 前 面 就 足够 了 。 

2. 移动 - 归 约 冲突 的 解决 是 移 进 优先 。 这 条 规则 正确 地 解决 了 悬空 else 二 义 所 带 来 的 移 
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动 - 归 约 冲突 。 





%{ 
#include <ctype.h> 
#include <stdio.h> 


#define YYSTYPE double /» double type for Yacc stack *#/ 
%} 





















%token NUMBER 
Mleft “+ ’-’ 
Xleft +’ ’/’ 
Xright UMINUS 


%% 





lines : lines expr ’\n’ { printf("%g\n", $2); } 
1 lines ‘\n’ 
| fe € #/ 
expr : expr ‘+’ expr { $$ = $1 + $3; } 
上 expr ‘’-’ expr { $$ = $1 - $3; } 
i expr ’*’ expr { $$ = $1 + $3; } 
| expr “/′ expr { $$ = $1 / $3; } 
1 °C! expr ’)’ { $% = $2; } 
! ’-’ expr Xprec UMINUS { $$ = - $2; } 
H NUMBER 
X% 
yylex() { 
int c; 
while ( ( c = getchar() ) == ’ ’ ); 
if ( (c =æ ’.’) ii (isdigit(c)) ) { 


ungetc(c, stdin); 
scanf("%1£", &yylval); 
return NUMBER; 

} 


return c; 


图 4-57 更 高 级 的 台式 计算 器 的 Yacc 说 明 


因为 这 些 默 认 的 规则 并 不 总 是 编译 器 编写 者 所 需要 的 ， 因 而 Yace 提供 了 解决 移动 - 归 约 冲 
突 的 一 般 方 法 。 在 声明 部 分 ， 我 们 可 以 为 终结 符 指定 优先 级 和 结合 规则 。 声 明 

“left ‘+ ’-’ 
使 得 + 和 - 具有 同样 的 优先 级 和 左 结合 规则 。 声 明 

%right ^^’ 
使 得 操作 符 “ 为 右 结合 的 。 还 可 以 用 声明 限制 二 元 操作 符 为 不 可 结合 的 ( 即 该 操作 符 的 两 个 相 
邻 出 现 根 本 不 能 组合 )， 如 

%nonassoc “< 

记号 的 优先 级 按 它们 在 声明 部 分 出 现 的 次 序 来 确定 ， 先 出 现 的 记号 的 优先 级 低 ， 辣 一 声明 
中 的 记号 有 相同 的 优先 级 。 于 是 ,图 4-57 中 的 声明 


%right UMINUS 
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使 得 JMINUS 的 优先 级 高 于 前 面 5 个 终结 符 。 

Yace 通过 为 与 冲突 有 关 的 每 个 产生 式 赋 予 优先 级 和 结合 规则 来 解决 移动 - 归 约 冲突 。 如 果 
Yacc 必须 在 移 进 输入 符号 a 和 按 产生 式 4 一 a 归 约 这 两 个 动作 之 间 进 行 选择 ， 那 么 ， 当 这 个 产 
生 式 的 优先 级 高 于 a, 或 者 优先 级 相同 但 产生 式 是 左 结合 的 时 ， 执 行 归 约 动作 ， 否 则 选择 移 进 。 

通常 ， 产 生 式 的 优先 级 和 它 最 右边 的 终结 符号 的 优先 级 一 致 。 大 多 数 情况 下 ， 这 种 决定 是 
合理 的 。 例 如 ， 给 定 产生 式 

E*+E+E|E*E 


若 搜索 符 是 + ， 归 约 产生 式 是 E>E+E， 那 么 归 约 优先 ， 因 为 右 部 的 + 和 搜索 符 具有 同样 的 优先 
级 ， 而 + 是 左 结合 的 ; 但 如 果 搜 索 符 是 *， 那 么 选择 移 进 ， 因 为 搜索 符 的 优先 级 高 于 这 个 产生 式 
中 + 的 优先 级 。 

如 果 最 右 终 结 符 不 能 给 产生 式 以 适当 的 优先 级 ， 我 们 可 以 通过 给 产生 式 附 加 标记 

%prec <terminal> 
来 强制 它 的 优先 级 ， 它 的 优先 级 和 结合 规则 同 这 个 标记 的 终结 符 一 样 。 该 终结 符 大 概 需 在 声明 
部 分 定义 。Yacc 不 会 报告 用 优先 级 和 结合 规则 解决 了 的 移动 - 归 约 冲突 。 

该 终结 符 可 以 是 一 个 占 位 符 ， 如 图 4-57 中 的 UMINUS 那 样 ， 它 不 由 词法 分 析 器 返回 ， 只 是 
用 来 决定 一 个 产生 式 的 优先 级 。 图 4-57 中 ， 声 明 


%right UMINUS 


给 记号 UMINUS 指 定 高 于 * 和 /的 优先 级 。 在 翻译 规则 部 分 ， 标 记 

%prec UMINUS 
出 现在 产生 式 

expr : “-”′ expr 
的 后 面 ， 这 使 得 该 产生 式 中 的 一 元 减 操作 符 的 优先 级 高 于 其 他 任何 操作 符 。 
4.9.3 用 Lex 建 立 Yacc 的 词法 分 析 器 

Lex 产生 的 词法 分 析 器 可 以 用 于 Yacc。Lex 库 11 将 提供 名 为 yylex O 的 驱动 程序 ， 这 个 
名 字 就 是 Yacc 所 需要 的 词法 分 析 器 的 名 字 。 如 果 用 Lex 产生 词法 分 析 器 ， 那 么 Yace 说 明 中 第 
三 部 分 的 例 程 yylex( ) 应 由 语句 


#include "lex.yy.c" 


来 代替 。 使 用 这 条 语句 ， 程 序 yylex() 可 以 访问 Yacc 中 记号 的 名 字 ， 因 为 Lex 的 输出 文件 是 
作为 Yacc 输出 文件 的 一 部 分 被 编译 的 ， 所 以 每 个 Lex 动作 都 返回 Yacc 知道 的 终结 符 。 

在 UNIX 系统 中 ， 如 果 Lex 说 明 在 文件 first .1 中 ，Yacc 说 明 在 second.y P, 我们 
可 以 用 命令 


lex first.1 
yacc second.y 
ec y.tab.c -ly ~-11 


来 获得 所 需 的 翻译 器 。 


图 4-58 的 Lex 说 明 可 用 来 取代 图 4-57 中 的 词法 分 析 器 。 最 后 一 个 模式 是 \n1， 因 为 ,在 Lex 
中 匹配 除 换行 以 外 的 任何 字符 。 
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number (0-9]4+\.?/[0-9J#\. [0-9 ]+ 
4% 
[ ] { /* 跳 过 空格 #7 } 


{number} { sscanf (yytext, "%1f", &yylval); 
return NUMBER; } 
{ return yytext[0}]; } 


\nt. 





图 4-58 图 4-57 中 的 yylex() 的 Lex 说 明 

4.9.4 Yacc 的 错误 恢复 

在 Yace 中 ， 可 以 通过 使 用 出 错 产 生 式 的 形式 进行 错误 恢复 。 首 先 ， 由 用 户 决 定 哪些 “ 主 
要 的 ” 非 终 结 符 会 与 错误 恢复 有 关 ， 典 型 的 选择 是 用 于 产生 表达 式 、 语 句 、 程 序 块 和 过 程 的 那 
些 非 终结 符 。 然 后 用 户 把 形 如 4 一 -error o 的 出 错 产生 式 加 到 文法 中 ,其 中 A 是 主要 非 终结 符 ， 
o 是 文法 符号 串 ， 也 可 能 是 空 串 ，error 是 Yacc 保留 字 。Yacc 将 从 这 样 的 说 明 产 生 语 法 分 析 器 ， 
并 把 出 错 产 生 式 当 作 普 通 产生 式 来 处 理 。 

但 是 ， 当 Yace 产生 的 语法 分 析 器 遇 到 错误 时 ， 会 用 一 种 特定 的 方式 来 处 理 项 目 集中 含有 
出 错 产生 式 的 状态 。 遇 到 错误 时 ，Yacc 从 栈 中 弹出 状态 ， 直 到 发 现 栈 顶 状态 的 项 目 集 含 有 形 如 
4 一 error 0C 的 项 目 为 止 。 然 后 语法 分 析 器 把 虚构 的 记号 error“ 移 进 ” 栈 ， 好 像 它 在 输入 中 看 
见 了 这 个 记号 一 样 。 

当 o 为 e 时 ， 立 即 归 约 为 4 并 执行 产生 式 4 一 error 的 语义 动作 〈 它 可 能 是 用 户 说 明 的 错误 恢 
复 例 程 )， 然 后 语法 分 析 器 丢弃 若干 输入 符号 ， 直 到 发 现 一 个 能 恢复 正常 处 理 的 输入 符号 为 止 。 

如 果 a 非 空 ，Yacc 在 输入 串 上 向 前 寻找 能 够 归 约 为 o 的 子 串 。 如 果 o 包 含 的 都 是 终结 符 ， 
那么 它 在 输入 上 寻找 这 样 的 终结 符 串 ， 并 把 它们 移 进 栈 ， 这 时 ， 语 法 分 析 器 的 栈 顶 为 error a, 
语法 分 析 器 把 error a 归 约 成 4， 并 恢复 正常 语法 分 析 。 

例如 ， 出 错 产 生 式 


stmt — error; 
要 求 语法 分 析 器 看 见 错误 时 跳 过 下 一 个 分 号 ， 好 像 该 语句 已 经 被 看 完 一 样 。 这 个 出 错 产 生 式 的 
语义 例 程 不 需要 处 理 输 入 ， 只 需 产 生 诊 断 信 息 并 设置 禁止 生成 目标 代码 的 标记 。 

例 4.52 图 4-59 给 出 了 图 4-57 中 带 有 下 列 出 错 产 生 式 的 Yace 台式 计算 器; 

lines : error ’\n’ 
当 输 入 行 有 语法 错误 时 ， 语 法 分 析 器 从 栈 中 弹出 符号 ， 直 至 磁 到 一 个 含有 移 进 记号 error 动作 
的 状态 为 止 。 该 例 中 ， 状 态 0 是 惟一 的 这 种 状态 ， 因 为 它 的 项 目 包含 

lines > ; error ’\n’ 


而 且 状 态 0 总 是 在 栈 底 。 语 法 分 析 器 把 记号 error 移 进 栈 ， 并 跳 过 输入 符号 ， 直 至 发 现 换 行 符 为 
止 。 这 时 语法 分 析 器 把 换行 符 移 进 栈 ， 把 error '\n ' 归 约 成 jies， 输 出 诊断 信息 “reenter 





last line:”。 专 门 的 Yacc 例 程 yyerrok 用 于 将 语法 分 析 器 恢复 正常 操作 模式 。 口 
练习 
4.1 考虑 文法 
S>(L) | a 
L-L,S |S 


BED AM 





a) 哪些 是 终结 符 、 非 终结 符 和 开始 符号 ? 
b) 试 建立 下 列 句子 的 分 析 树 。 

i) (a, a} 

li) (a, (a, a)) 

iii) (a, ((a, a), (a, a))) 
c) 试 为 (b) 中 的 每 个 句子 构造 一 个 最 左 推导 。 
d) 试 为 (b) 个 的 每 个 句子 构造 一 个 最 右 推 导 。 

* e) 该 文法 产生 的 语言 是 什么 ? 


%{ 

#include <ctype.h> 

#include <stdio.h> 

#define YYSTYPE double /* Yacc 栈 定义 为 4ouble 类 型 «/ 
%} 


%token NUMBER 
%left ‘+ ’-’ 
%left ^+’ LA 
%right UMINUS 


%% 


lines : Lines expr ‘\n’ 1{ print£("%g\n", $2); } 
lines ’\n’ 


/» empty */ 


error ’\n’{ yyerror (“重新 输入 上 一 行 ; ”) 
yyerrok; } 


expr expr { 
expr ’-’ expr { 
expr expr { 
expr ’/’ expr { 
‘(’ expr °)’ { 
*~’ expr Xprec UMINUS - $2; } 
NUMBER 


$3; } 
$3; } 
* $3; } 
/ $3; } 


%% 
#include "lex.yy.c" 


图 4-59 包含 错误 恢复 的 台式 计算 器 
4.2 考虑 文法 
S -~ aSbS | bSaS |e 


a) 为 句子 cbap 构 造 两 个 不 同 的 最 左 推导 ， 以 证 明 该 文法 是 二 义 的 。 
b) 试 为 abab 构 造 相应 的 最 右 推导 。 
c) 试 为 abab 构 造 相应 的 分 析 树 。 
* d) 该 文法 产生 的 语言 是 什么 ? 
4.3 考虑 文法 
bexpr —> bexpr or bterm | bterm 


bterm — bterm and bfactor | bfactor 
bfactor > not bfactor | ( bexpr ) | true | false 
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a) 试 为 句子 not ( true or false ) 构 造 分 析 树 。 
b) 试 证 明 该 文法 产生 所 有 的 布尔 表达 式 。 
* o) 该 文法 是 二 义 的 吗 ? 为 什么 ? 
4.4 考虑 文法 
R>R'\’R | RR | R* | (R) | a |b 


注意 ， 第 一 个 竖 线 是 符号 “或 ”"， 不 是 候选 式 之 间 的 分 隔 符 。 
a) 试 证 明 该 文法 产生 字母 表 {a，b} 上 的 所 有 正规 表达 式 。 
b) 试 证 明 该 文法 是 二 义 的 。 
* c) 构造 一 个 等 价 的 无 二 义 文法 ， 它 赋予 操作 符 *、 并 置 和 | 的 优先 级 和 结合 规则 与 3.3 
266 节 中 的 定义 相同 。 
267 d) 按 上 面 两 个 文法 构造 句子 | b*e 的 分 析 树 。 
4.5 下 面 的 让 then-else 语 句 文 法 试图 消除 惹 空 else 的 二 义 性 ， 试 证 明 该 文法 仍然 是 二 义 的 。 
stmt 一 证 expr then stmt 
| matched_stmt 
matched_stmt > if expr then matched_stmt else stmt 
| other 
*4.6 试 为 下 面 每 种 语言 设计 一 个 文法 ， 并 说 明 哪 些 语言 是 正规 的 ? 
a) 每 个 0 的 后 面 至 少 跟 有 一 个 1 的 所 有 0 和 1 的 串 。 
b) 0 和 1 的 个 数 相等 的 O 和 的 串 。 
c) 0 和 1 的 个 数 不 相 等 的 0 和 1 的 串 。 
d) 不 含 011 子 串 的 0 和 1 的 串 。 
e) 形 如 xy H xy 的 0 和 1 的 串 。 
f) JEAN xx 的 0 和 ] 的 串 。 
4.7 为 下 面 每 种 语言 的 表达 式 构造 一 个 文法 。 
a) Pascal 
b)C 
c) Fortran 77 
d) Ada 
e) Lisp 
4.8 为 练习 4.7 中 每 种 语言 的 语句 构造 一 个 无 二 义 性 文法 。 
49 我 们 可 以 在 文法 产生 式 的 右 部 使 用 类 似 正规 表达 式 的 操作 符 。 方 括号 可 以 用 来 表示 产 
生 式 的 可 选 部 分 。 例 如 ， 我 们 可 以 用 下 面 的 产生 式 来 表示 可 选 的 else 子 句 。 
stmt — if expr then stmt | else stmt | 
一 般 地 ，A 一 a[B]Y 等 价 于 两 个 产生 式 4 一 apy 和 4 一 ay。 
花 括 号 可 以 用 来 表示 一 个 出 现 零 次 或 多 次 的 短语 ， 例 如 ， 
stmt — begin stmt { ; stmt } end 
表示 处 于 begin 和 end 之 间 的 由 分 号 分 隔 的 语句 表 。 一 般 地 ，A 一 a{B}Y 等 价 于 4 一 
oBy 和 B>BB|E 。 


268 在 某 种 意义 上 ，[B] 代表 正规 表达 式 Ble, MBN B*。 我 们 可 以 推广 这 些 表 示 ， 


语法 分 析 177 
以 允许 文法 符号 的 任何 正规 表达 式 都 可 以 出 现在 产生 式 的 右 部 : 
a) 修改 上 面 的 stmt 产生 式 ， 使 得 以 分 号 终止 的 语句 表 可 以 出 现在 产生 式 右 部 。 
b) 试 给 出 一 组 上 下 文 无 关 的 产生 式 ， 它 们 和 4 一 B*a (CID) 产生 同样 的 串 集 。 
c) 说 明 如 何 用 一 组 有 穷 的 上 下 文 无 关 产生 式 来 代替 任何 产生 式 4 一 r， 其 中 r 是 正规 
表达 式 。 
4.10 下 列 文法 为 单个 标识 符 产 生 声 明 : 
simt — declare id option_list 
option_list + option_list option | e 
option > mode | scale | precision | base 
mode — real | complex 
scale + fixed | floating 
precision — single | double 
base — binary | decimal 
a) 说 明 怎样 将 该 文法 推广 到 允许 n 个 选项 A; ， 其 中 1 <i<n， 每 个 选项 或 者 为 a; ,或 
者 为 b;。 
b) 上 面 的 文法 容许 元 余 或 者 矛盾 的 声明 ， 如 
declare zap real fixed real floating 
我 们 可 以 坚持 认为 该 语言 的 语法 禁止 这 样 的 声明 ， 但 在 此 我 们 只 考虑 语法 是 否 正确 。 
于 是 ， 就 有 有 穷 数 目的 语法 正确 的 记号 序列 。 很 明显 ， 这 些 声明 是 上 下 文 无 关 的 ， 
是 正规 集 。 试 为 带 有 个 选项 的 声明 构造 一 个 文法 ， 使 得 每 个 选项 至 多 出 现 一 次 。 
** c) 试 证 明 (b) 部 分 的 文法 至 少 有 2" 个 符号 。 
d) (c) 是 否 说 明 通 过 语言 的 语法 定义 来 强制 声明 选项 中 的 非 元 余 和 无 矛盾 是 可 行 的 ? 
4.11 a) 消除 练习 4.1 中 文法 的 左 递归 。 
b 为 (3) 的 文法 构造 预测 语法 分 析 器 。 给 出 该 语法 分 析 器 在 分 析 练 习 4.1(b) 中 的 句子 
时 的 行为 。 
412 ， 试 为 练习 4.2 中 的 文法 构造 一 个 带 回 淹 的 递归 下 降 语法 分 析 器 。 能 否 为 这 个 文法 构造 
预测 语法 分 析 器 ? 
4.13 下 面 的 文法 产生 除 空 串 以 外 的 所 有 长 度 为 偶数 的 a 的 串 。 


S — aSa | aa 


a) 试 为 该 文法 构造 一 个 带 回 渊 的 递归 下 降 语 法 分 析 器 ， 要 求 在 8 产生 式 的 两 个 候选 
式 aa 和 aSa 中 首先 考虑 aSa。 证 明 : 8$ 所 对 应 的 过 程 可 以 成 功 地 分 析 2，4，8 个 a 的 
串 ， 但 6 个 ca 的 串 却 不 行 。 
* b) 你 的 语法 分 析 器 能 识别 什么 样 语言 ? 
4.14 为 练习 4.3 的 文法 构造 一 个 预测 语法 分 析 器 。 
4.15 为 练习 4.4 中 正规 表达 式 的 无 二 义 文法 构造 一 个 预测 语法 分 析 器 。 
*4.16 证 明 ;， 左 递归 文法 一 定 不 是 LL(1) 文 法 。 
* 4.17 WŒ: LL(1) 文 法 一 定 不 是 二 义 的 。 
4.18 证 明 : 一 个 没有 e 产生 式 的 文法 ， 只 要 它 的 每 个 非 终结 符 的 各 个 候选 式 以 不 同 的 终 
结 符 开 始 ， 那 么 它 就 是 LL(1) 文 法 。 


419 RARE SAS wxXy 才 > wry 的 推导 ， 则 文法 符号 X RAMA, M XX 不 会 出 现 
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4.20 


4.21 


4.22 
4.23 


4.24 
4.25 


4.26 


4.27 


在 某 个 句子 的 推导 中 。 

a) 试 编写 一 个 算法 ， 从 文法 中 删除 包含 无 用 符号 的 产生 式 。 

b) 将 你 的 算法 应 用 到 下 面 的 文法 上 : 

S—-0|4 

A > AB 

B ~1 

我 们 说 一 个 文法 是 无 e 的 ， 如 果 它 没有 E 产生 式 ， 或 者 只 有 一 个 e 产 生 式 soe, M 
且 开 始 符 号 5 不 出 现在 任何 产生 式 的 右 部 。 

a) 试 编 写 一 个 算法 ， 把 给 定 的 文法 转换 成 等 价 的 无 的 文法 。( 提示 : 首先 确定 所 有 

能 够 产生 空 串 的 非 终结 符 。) 

b) 把 你 的 算法 应 用 于 练习 4.2 中 的 文法 。 

单产 生 式 是 右 部 只 有 一 个 非 终结 符 的 产生 式 。 

a) 试 编写 一 个 算法 ， 把 文法 转换 成 等 价 的 不 含 单产 生 式 的 文法 。 

b) 把 你 的 算法 应 用 于 表达 式 文法 (4-10)。 
对 任何 非 终结 符 4， 不 存在 形 如 4 戎 > 4 推导 的 文法 是 无 环 的 文法 。 

a) 试 编写 一 个 算法 ， 把 文法 转换 成 等 价 的 无 环 文法 。 

b) 把 你 的 算法 应 用 于 文法 8 一 SS | (5) |€ 。 

a) 用 练习 4.1 的 文法 构造 (4a，(a，a)) 的 一 个 最 右 推 导 ， 并 给 出 每 个 右 句 型 的 句柄 。 

b) 试 给 出 与 (a) 的 最 右 推导 对 应 的 移动 -~ 归 约 分 析 器 的 步骤 。 

c) 试 给 出 在 (b) 的 移动 - 归 约 分 析 过 程 中 ， 自 底 向 上 构造 分 析 树 的 步骤 。 

图 4-60 给 出 了 练习 4.1 中 文法 的 算 符 优先 关系 ， 利 用 这 些 优先 关系 分 析 练 习 4.1(b) 的 句 
子 。 

试 给 出 与 图 4-60 中 的 表 对 应 的 算 符 优 
先 函 数 。 

给 定 一 个 算 符 文法 ， 包 括 那些 包含 许 
多 不 同 非 终结 符 的 文法 ， 有 一 种 方法 
可 以 自动 地 产生 它 的 算 符 优先 关系 。 、 
对 非 终结 符 A， 我 们 将 leading() 定 图 4-60 练习 4.1 中 文法 的 算 符 优先 关系 
MAM A 导出 的 某 个 串 的 最 左 终结 符 a 的 集合 ， 将 trailing(A) 定义 为 从 4 导出 的 某 
个 串 的 最 右 终 结 符 的 集合 。 对 终结 符 a 和 b， 如 果 存 在 一 个 形 如 caBbYy HER, E 
中 B 或 者 为 空 ， 或 者 是 单个 非 终结 符 ，a 和 Y 是 任意 的 文法 符号 串 ， 则 我 们 说 a=b; 
如 果 存 在 一 个 形 如 aa4B WAR, TH b 在 leading(4) 中 ， 则 我 们 说 a <-b; 如 果 存 
在 一 个 形 如 ohbB 的 右 部 ， 而 且 a 在 trailing(4) 中 ， 则 我 们 说 a .> pb。 这 两 种 情况 下 
co 和 有 都 是 任意 的 串 。 而 且 ， 如 果 b 在 1eading(S) 中 ， 则 $< b; WR a 在 trailing(5) 
+, 则 a .>$， 其 中 ，5 是 开始 符号 。 

a) 对 练习 4.1 中 的 文法 ， 计 算 8 和 了 的 leading 和 trailing。 

b) 试验 证 图 4-60 中 的 优先 关系 是 从 该 文法 导出 的 。 

试 给 下 列 文法 构造 算 符 优先 关系 。 

a) 练习 4.2 的 文法 。 

b) 练习 4.3 的 文法 。 
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c) 表达 式 文 法 (4-10)。 

4.28 试 给 正规 表达 式 构造 一 个 算 符 优先 语法 分 析 器 。 [271] 

4.29 一 个 文法 称 为 〈《 惟 一 可 道 的 ) 算 符 优先 文法 ， 如 果 它 是 一 个 算 符 文法 ， 而 且 任意 两 
个 右 部 的 终结 符 样式 都 不 相同 ， 在 每 对 终结 符 之 间 用 练习 4.26 的 方法 至 多 产生 一 种 
优先 关系 。 练 习 4.27 的 文法 中 哪 一 个 是 算 符 优先 文法 。 l 

4.30 一 个 文法 称 为 Greibach 范式 (GNE) 文 法 ， 如 果 它 是 无 e 的 ， 而 且 每 个 产生 式 (se 
除外 ) 均 形 如 Aaa, HP, a 是 终结 符 ，o 是 非 终 结 符 串 ， 也 可 能 为 空 。 

** a) 试 编写 一 个 算法 ,将 给 定 文法 转换 成 Greibach 范式 文法 。 

b) 将 你 的 算法 应 用 到 表达 式 文法 (4-10) 上 。 

*4.31 试 证 明 : 每 个 文法 均 可 以 被 转换 成 等 价 的 算 符 文法 。 提 示 : 首先 将 其 转换 成 
Greibach 范 式 。 

*4.32 试 证 明 : 每 个 文法 均 可 以 被 转换 成 一 个 算 符 文法 ， 它 的 每 个 产生 式 都 是 下 列 格式 之 一 : 
A-7aBcC A->aBb A-aB A >a 


如 果 e 在 该 语言 中 ， 那 么 还 有 产生 式 S 一 € 。 
4.33 考虑 下 面 的 二 义 文法 
S—AS |b 
A > SA |a 
a) 试 构造 该 文法 的 LR(0) 项 目 集 规 范 族 。 
b) 试 构造 一 个 NFA， 它 的 状态 是 (a) 的 LR(0) 项 目 。 证 明 : 从 该 NFA 用 子 集 构造 法 
构造 的 DFA 和 和 该 文法 的 LR(0) 项 目 集 规 范 族 的 转移 图 是 一 致 的 。 
c) 试 构造 该 文法 的 SLR 语法 分 析 表 。 
d) 试 给 出 SLR 语法 分 析 器 在 输入 abab 上 的 动作 。 
e) 试 构造 规范 的 LR 语法 分 析 表 。 
f) 试用 LALR 算 法 4.11 构 造 语 法 分 析 表 。 
g) 试用 LALR 算 法 4.13 构 造 语 法 分 析 表 。 
4.34 试 为 练习 4.3 的 文法 构造 SLR 语 法 分 析 表 。 
4.35 考虑 下 面 的 文法 
E-E+T |T 
T>TF |F 
F>F* |aj|b 
a) 试 为 该 文法 构造 SLR 语 法 分 析 表 。 
b) 试 构造 LALR 语 法 分 析 表 。 
4.36 根据 4.7 节 的 方法 压缩 练习 4.33、4.34 和 4.35 中 构造 的 语法 分 析 表 。 
4.37 a) 证 明 下 面 的 文法 是 LL(1) 文 法 , 但 不 是 SLR(1) 文 法 。 
S > AaAb | BbBa 
AAA 一 E 
Boe 
** b) 证 明 所 有 LL(1) 文 法 都 是 LR(1) 文 法 。 
* 4.38 证 明 LR(1) 文 法 都 是 无 二 义 的 。 
4.39 证 明 下 面 的 文法 是 LALR(1) 文 法 ,但 不 是 SLR(1) 文 法 。 
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4.40 


* 4.41 


* 4.47 


* 4.48 


* 4.49 


S > Aa | bAc | de | bda 
Ad 


证 明 下 面 的 文法 是 LR(1) 文 法 ,但 不 是 LALR(1) 文 法 。 


S > Aa | bAc | Bc | bBa 


Awd 
Bod 
考虑 下 式 定 义 的 文法 族 G, : 
S > A,b; li<n 


A; > aA la; 1<i,j<nH j#i 


a) 试 证 明 : G, 具有 2n?-n 个 产生 式 和 Peren 个 LR(0) 项 目 集 。 该 结果 说 明 LR 语法 
分 析 器 的 大 小 同文 法 的 大 小 相 比 有 多 大 ? 

b) G, Æ SLR(1) 文 法 吗 ? 

c) G, 是 LALR() 文 法 吗 ? 

试 编写 一 个 算法 ， 为 文法 中 的 每 一 个 非 终 结 符 4 计 算 集合 {BI4 兰 > Ba， 其 中 B 是 非 

终结 符 ，x 是 文法 符号 串 }。 

试 编写 一 个 算法 ， 为 文法 中 的 每 一 个 非 终 结 符 4 计 算 集合 {alh => aw， 其 中 a 是 终结 

符 ，w 是 终结 符号 串 ， 而 且 在 最 后 一 步 推导 中 不 能 用 e 产生 式 }。 

试 为 练习 4.4 的 文法 构造 SLR 语 法 分 析 表 ， 语 法 分 析 动作 冲突 的 解决 要 保证 正规 表达 

式 能 以 正常 的 方式 进行 分 析 。 

试 为 悬空 else 文法 (4-7) 构 造 一 个 SLR 语法 分 析 器 ， 把 expr 看 作 一 个 终结 符 ， 用 通 

常 的 方法 解决 分 析 动作 冲突 。 

a) 为 下 面 的 文法 构造 SLR 语 法 分 析 表 ， 解 决 分 析 动 作 冲 突 ， 使 得 能 以 与 图 4-52 的 LR 
语法 分 析 器 同样 的 方式 分 析 表达 式 。 


E>EsubR |EsupE |{E}|c 
R > E supE |E 


b) 在 该 SLR 语法 分 析 表 的 构造 过 程 中 产生 的 每 个 归 约 - 归 约 冲突 ， 是 否 都 能 通过 变 
换文 法 而 改 成 移动 - 归 约 冲突 ? 

试 为 排版 文法 (4-25) 构 造 一 个 等 价 的 LR 文法 ， 它 能 把 形 如 E sub E sup E 的 表达 式 

处 理 成 一 种 特例 。 

考虑 下 面 n 个 二 元 中 缀 操作 符 的 二 义 文法 : 

E+E0,E|\|E®E|--- |E0E|(E)|iad 

假设 所 有 的 操作 符 都 是 左 结合 的 ， 而 且 如 果 i >j， 则 o 的 优先 级 高 于 8) 。 

a) 试 为 该 文法 构造 SLR 项 目 集 。 共 有 多 少 个 项 目 集 ? 是 n 的 函数 吗 ? 

b) 试 为 该 文法 构造 SLR 语法 分 析 表 ， 并 用 4.7 节 的 列表 表示 对 其 进行 压缩 。 该 表示 
中 使 用 的 列表 的 总 长 度 是 多 少 ? 是 n 的 函数 吗 ? 

c) 分 析 id 0, id 0; id 需 用 多 少 步 ? 

对 下 面 的 无 二 义 文法 重 做 练习 4.48。 


E, > E, 0 E2 | Ez 
E, > E% E; | Es 
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En ps En 8, E+ | Ent 
E+l > (E,) | id 
从 练习 4.48 和 4.49 的 答案 来 看 ， 等 价 的 二 义 文法 和 无 二 义 文法 的 语法 分 析 器 的 效率 
有 什么 差别 ?构造 语法 分 析 器 的 效率 又 有 什么 差别 ? 
450 试 编写 一 个 Yacc 程 序 ， 其 输入 为 算术 表达 式 ， 输 出 为 相应 的 后 缀 表达 式 。 
4.51 斌 编写 一 个 计算 布尔 表达 式 的 Yacce“ 台 式 计算 器 ”程序 。 
4.52 试 编写 一 个 Yacc 程 序 ， 其 输入 为 正规 表达 式 ， 输 出 为 正规 表达 式 的 分 析 树 。 
4.53 用 例 4.20、 例 4.32 和 4.50 中 的 预测 语法 分 析 器 ， 算 符 优先 语法 分 析 器 和 LR 语法 分 析 
器 ， 试 描绘 出 它们 在 下 面 的 错误 输入 上 的 分 析 动 作 : 
a) (id + ( *id ) 
b) * + id ) + (id * 
*4.54 试 为 下 面 的 文法 构造 具有 纠 错 功能 的 算 符 优先 语法 分 析 器 和 LR 语 法 分 析 器 : 
stmt > if e then stmt — 
| if e then stmt else stmt 
| while e do stmt 
| begin list end 
| 
list > list ; stmt 
| stmt 


用 下 面 的 产生 式 代 替 练习 4.54 中 文法 的 list 产生 式 可 以 将 其 改造 成 LL 文 法 。 


list > stmt list’ 
list' = ; stmt | € 


试 为 修正 后 的 文法 构造 一 个 具有 纠 错 功能 的 预测 语法 分 析 器 。 
试 给 出 你 为 练习 4.54 和 4.55 构 造 的 语法 分 析 器 在 下 列 错误 输入 上 的 分 析 动 作 。 


a) if e then s ; if e then s end 


4.5 


an 


4.5 


On 


b) while e do begin s ; if ethen s ; end 


4.57 用 分 号 和 end 作 同步 记号 ， 试 为 练习 4.54 和 4.55 的 文法 构造 带 有 紧急 方式 错误 恢复 的 
预测 语法 分 析 器 和 LR 语法 分 析 器 。 给 出 你 设计 的 语法 分 析 器 在 练习 4.56 的 错误 输入 
上 的 分 析 动作 。 

458 在 4.6 节 中 ， 我 们 提出 了 一 种 面向 图 的 方法 ， 它 能 在 算 符 优 先 语法 分 析 器 的 归 约 动作 
中 ， 确 定 从 栈 中 弹出 的 串 的 集合 。 
* a) 试 给 出 一 个 算法 ， 找 出 表示 所 有 这 种 串 的 正规 表达 式 。 
b 试 给 出 一 个 算法 ， 确 定 这 种 串 的 集合 是 有 穷 的 还 是 无 穷 的 ， 如 果 有 穷 则 列 出 它们 。 
c) 将 你 的 算法 从 (a) 到 (b) 应 用 到 练习 4.54 的 文法 上 。 

** 4.59 ”对 图 4-18、 图 4-28 和 图 4-53 中 的 纠 错 语法 分 析 器 ， 我 们 要 求 每 一 次 纠 错 最 终 至 少 从 输 
人 中 移 走 一 个 符号 或 者 在 到 达 输 入 的 末尾 时 使 栈 缩短 。 但 所 选 的 纠正 动作 不 一 定 都 
会 立即 从 输入 中 移 走 一 个 符号 ， 你 能 证 明 图 4-18 、 图 4-28 和 图 4-53 中 的 语法 分 析 器 不 
可 能 进入 死 循 环 吗 ? 提示 : 对 算 符 优先 语法 分 析 器 ， 即 使 存在 错误 ， 栈 中 相 邻 的 终 
结 符 之 间 的 关系 也 是 所 .。 对 LR 语法 分 析 器 ， 即 使 存在 错误 ， 栈 中 仍 将 包 合 活 前 级 。 


N 
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**4.60 试 给 出 一 个 算法 ， 检 测 预 测 语法 分 析 表 、 算 符 优先 语法 分 析 表 和 LR 语法 分 析 表 中 的 
不 可 达 表 项 。 

4.61 当 栈 顶 状 态 是 4 或 5 (+ 和 * 分 别 在 栈 顶 时 ) 以 及 下 一 个 输入 是 + 或 * 时 ， 图 4-53 的 LR 
语法 分 析 器 以 完全 相同 的 方式 处 理 这 四 种 情况 : 调用 例 程 e1， 将 一 个 id 插 在 它们 之 
间 。 我 们 可 以 很 容易 地 想像 出 一 个 LR 语 法 分 析 器 ， 它 按 同 样 的 方式 处 理 包 含 所 有 算 
本 操作 符 的 表达 式 : 将 id 插入 到 两 个 相连 的 操作 符 之 间 。 在 某 些 语言 ( 如 PL/1 或 C， 
但 不 是 Fortran 或 Pascal) 中 ， 最 好 以 一 种 特殊 方式 处 理 / 在 栈 顶 且 * 是 下 一 输入 的 情 
况 。 为 什么 ” 纠 错 程 序 将 采取 什么 样 的 合理 动作 ? 

4.62 一 个 文法 称 为 Chomsky 范 式 (CNE) 文 法 ， 如 果 它 是 无 e 的 ， 而 且 每 个 非 e 产生 式 均 形 
如 A 一 BC 或 4 一 a。 

** a) 试 编写 一 个 算法 ， 将 给 定 文法 转换 成 一 个 等 价 的 Chomsky 范式 文法 。 
b) 将 你 的 算法 应 用 到 表达 式 文法 (4-10) 上 。 

4.63 给 定 一 个 Chomsky 范 式 文法 G 和 一 个 输入 串 w = aia2…a,， 试 编写 一 个 算法 ， 确 定 w 是 
否 在 L(G) 中 。 提 示 ， 用 动态 规划 方法 填 一 张 n x n 的 表 T， 其 中 TL[iy] = {A 1 AS adn 
wajo WAR wE LGH, SERA SE Tato 

* 4.64 a) 给 定 一 个 Chomsky 范式 文法 G， 说 明 怎 样 将 单个 插入 、 删 除 和 修改 错误 的 产生 式 
填 加 到 该 文法 中 ， 使 得 扩大 后 的 文法 能 产生 所 有 可 能 的 记号 串 。 
b) 试 修改 练习 4.63 的 算法 ， 使 得 对 于 任何 串 w， 该 算法 使 用 最 少数 目的 出 错 产 生 式 
即 可 找到 w 的 一 个 分 析 。 
4.65 试 采用 例 4.50 中 的 错误 恢复 机 制 为 算术 表达 式 编写 一 个 Yace 语法 分 析 器 。 


参考 文献 注释 


有 重大 影响 的 Algol 60 报 告 (Naur[1963]) 使 用 Backus-Naur 范 式 (BNF) 来 定义 了 一 个 较 大 的 程 
序 设计 语言 的 语法 。BNF 范 式 和 上 下 文 无 关 文 法 的 等 价 很 快 引起 了 人 们 的 注意 ,而且 形式 语言 
理论 在 20 世 纪 60 年 代 得 到 了 极 大 的 关注 。Hopcroft and Ullman[1979] 介 绍 了 这 一 领域 的 基础 。 

随 着 上 下 文 无 关 文 法 的 发 展 ， 语 法 分 析 方 法 变 得 更 加 系统 化 。 出 现 了 一 些 可 以 分 析 任 何 上 
下 文 无 关 文 法 的 通用 技术 。 练 习 4.63 中 提 到 的 动态 规划 技术 是 最 早出 现 的 分 析 技 术 之 一 ， 这 种 
技术 是 由 J.Cocke、Younger[1967] 和 Kasami[1965] 分 别 独立 发 现 的 。Earley[1970] 在 他 的 博士 论 
文中 也 提出 了 一 种 分 析 所 有 上 下 文 无 关 文 法 的 通用 算法 。Aho and Ullman[1972b，1973a] 详 细 
讨论 了 这 些 方法 以 及 其 他 一 些 分 析 方 法 。 

已 经 有 很 多 不 同 的 语法 分 析 技 术 被 应 用 在 编译 器 中 。Sheridan[1959] 描 述 了 Fortran 编 译 器 
的 原始 版 本 所 使 用 的 一 种 分 析 方 法 ,为 了 能 够 分 析 表 达 式 ， 这 种 方法 在 操作 数 的 两 边 引 和 人 了 额 
外 的 括号 。 算 符 优 先 的 思想 和 优先 函数 的 使 用 来 自 Floyd[19631]。 在 20 世 纪 60 年 代 ， 人 们 提出 了 
很 多 自 底 向 上 分 析 策 略 ， 主 要 包括 简单 优先 法 (Wirth and Weber[1966])、 有 界 上 下 文法 
(Floyd[1964]，Graham[1964])、 混 合 策略 优先 法 (McKeeman, Horning and Wortman[1970]) 以 及 
弱 优 先 法 (Ichbiah and Morse[1970])。 

递归 下 降 法 和 预测 分 析 法 在 实践 中 得 到 了 广泛 应 用 。 由 于 递归 下 降 分 析 法 的 灵活 性 ， 它 用 
在 了 很 多 早期 的 编译 器 编写 (compiler-writing) 系 统 中 ， 璧 如 META(Schorre[1964]) 和 
TMG(McCiure[19651) 。 练 习 4.13 的 解答 和 这 种 分 析 技 术 的 一 些 理论 可 以 在 Birman and 
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Ullman[1973] 中 找到 。Pratt[1973] 提 出 了 一 种 自 顶 向 下 的 算 符 优先 语法 分 析 法 。 

Lewis and Stearns[1968] 人 研究 了 LL 文法 ，Rosenkrantz and Stearns[1970] 则 研究 了 LL 文法 的 
性 质 。Knuth[1971a] 对 预测 语法 分 析 器 进行 了 深入 研究 。Lewis，Rosenkrantz and Stearns[1976] 
描述 了 预测 语法 分 析 器 在 编译 器 中 的 应 用 。Foster[1968] 、Wood[1969]、Stearns[1971] 和 
Soisalon-Soininen and Ukkonen[1979] 提 出 了 一 种 将 文法 转换 成 LL(1) 形 式 的 算法 。 

LR 文法 和 语法 分 析 器 首先 是 由 Knuth[1965] 提 出 的 ， 并 且 他 还 描述 了 规范 LR 语法 分 析 表 的 
构造 。 直 到 Korenjak[1969] 证 明 使 用 LR 方法 可 以 构造 大 小 合理 的 语法 分 析 器 ;人们 才 认 为 这 种 
方法 是 实用 的 。 当 DeRemerf1969，1971] 设 计 了 比 Korenjak 的 方法 更 加 简单 的 SLR 和 LALR 方 法 
时 ，LR 技 术 就 成 为 语法 分 析 器 自动 生成 器 的 一 种 选择 。 如 今 ，LR 语 法 分 析 器 的 生成 器 在 编译 
器 构造 领域 非常 流行 。 

有 很 多 研究 工作 深入 到 了 LR 语 法 分 析 器 的 工程 中 。 二 义 文 法 在 LR 语 法 分 析 过 程 中 的 应 用 
要 归功 于 Aho，Johnson, and Uliman[1975] 和 Earley[1975a]。Anderson, Eve, and Horning[1973]. 
Aho and Uliman[1973b], Demers[1975], Backhouse[1976], Joliat[1976], Pager[1977b], 
Soisalon-Soininen[1980] 和 Tokuda[1981] 中 讨论 了 怎样 消除 用 单产 生 式 进行 的 归 约 。 

LaLonde[1971], Anderson, Eve and Horning[1973],. Pager[1977a], Kristensen and 
Madsen[1981], DeRemer and Pennello[1982], Park,Choe, and Chang[1985] 提 出 了 计算 LALR(1) 
搜索 符 集 的 技术 ，Park,Choe, and Chang[1985] 还 提供 了 一 些 试验 比较 。 

Aho and Johnson[1974] 给 出 了 LR 分 析 法 的 综述 ， 并 讨论 了 Yacc 语 法 分 析 器 生成 器 用 到 的 一 
些 算法 ， 包 括 用 出 错 产 生 式 来 进行 错误 恢复 。Aho and Ullman [1972b，1973a] 扩 展 了 LR 语法 分 
析 法 和 它 的 理论 基础 。 

人 们 已 经 提出 了 很 多 语法 分 析 器 的 错误 恢复 技术 。Ciesinger[1979] 和 Sippu[1981] 对 错误 恢 
复 技 术 进 行 了 综述 。Irons[1963] 提 出 了 一 种 基于 文法 的 语法 错误 恢复 技术 。Wirth[1968] 用 出 错 
产生 式 来 处 理 PL360 编 译 器 中 的 错误 。Leinius[1970] 提 出 了 短语 级 恢复 策略 Aho and 
Peterson[1972] 表 明 通 过 将 出 错 产 生 式 和 上 下 文 无 关 文 法 的 一 般 分 析 算 法 相 结合 可 以 获得 全 局 
最 小 开销 的 错误 恢复 。Mauney and Fischer[1982] 通 过 使 用 Graham, Harrison, and Ruzzof1980] 的 
语法 分 析 技 术 将 这 种 思想 扩展 到 LL 和 LR 语 法 分 析 器 的 局 部 最 小 开销 的 修复 中 。Graham and 
Rhodes[1975] 讨 论 了 优先 分 析 中 的 错误 恢复 技术 。 

Horning[1976] 讨 论 了 好 的 出 错 信息 应 当 具 有 的 性 质 。Sippu and Soisalon-Soininen[1983] 对 
Helsinki 语 言 处 理 器 (Riihi et al. [1983]) 中 的 错误 恢复 技术 与 Pennello and DeRemer [1978] 的 
“前 向 移动 ”(forward move) 恢 复 技术 、Graham，Haley, and Joy[1979] 的 LR 错误 恢复 技术 以 及 
Pai and Kieburtz[1980] 的 “全 局 上 下 文 ”(global contexb 恢 复 技术 的 性 能 进行 了 比较 。 

Conway and Maxwell[1963], Moulton and Muller[1967], Conway and Wilcox[1973], 
Levy[19751、Tai[1978] 和 Ri5hrich[1980] 讨 论 了 语法 分 析 过 程 中 的 错误 校正 。Aho and 
Peterson[1972] 中 含有 对 练习 4.63 的 解答 。 


第 5 章 语法 制导 翻译 


本 章 扩 展 了 2.3 节 的 内 容 ， 主 要 研究 上 下 文 无 关 文 法 所 产生 的 语言 的 翻译 。 通 过 把 属性 附 
加 到 代表 诸 法 结构 的 文法 符号 上 ， 我 们 可 以 将 语义 信息 和 程序 设计 语言 的 结构 联系 起 来 。 属 性 
的 值 是 用 与 文法 产生 式 相关 联 的 “语义 规则 ”来 计算 的 。 

把 语义 规则 同 产生 式 联 系 起 来 要 涉及 两 个 概念 ， 即 语法 制导 定义 和 翻译 模式 (translation 
scheme)。 语 法 制导 定义 是 关于 语言 翻译 的 高 层次 规格 说 明 ， 它 隐蔽 了 许多 具体 实现 细节 ， 使 
用 户 不 必 显 式 地 说 明 翻 译 发 生 的 顺序 。 翻 译 模式 则 指明 了 语义 规则 的 计算 顺序 ， 以 便 说 明 某 些 
实现 细节 。 在 第 6 章 的 语义 检查 〈 尤其 是 类 型 的 确定 ) 以 及 第 8 章 的 中 间 代码 生成 中 ， 我 们 都 将 
使 用 这 两 个 概念 。 

从 概念 上 讲 ， 不 论 是 语法 制导 定义 还 是 翻译 模式 ， 都 要 首先 对 输入 符号 串 进行 语法 分 析 ， 
建立 分 析 树 ， 然 后 根据 需要 遍历 分 析 树 ， 并 在 分 析 树 的 节点 处 计算 诸 义 规则 ( 见 图 5-1 )。 语 义 
规则 的 计算 可 以 生成 代码 、 在 符号 表 中 保存 信息 、 发 出 错误 信息 或 完成 其 他 活动 。 这 样 ， 对 输 
人 符号 串 的 翻译 过 程 就 是 对 语义 规则 求 值 的 过 程 。 


输入 符号 串 一 一 >” 分 析 树 一 一 > ”依赖 图 ”一 语义 规则 的 计算 顺序 
图 5-1 从 概念 的 角度 看 语法 制导 翻译 过 程 


实际 实现 时 ， 并 不 一 定 完 全 按照 图 5-1 中 的 步骤 进行 。 在 某 些 情况 下 ， 语 法 制导 定义 可 以 
在 单 遍 扫 描 中 实现 ， 即 在 语法 分 析 期 间 计算 语义 规则 ， 而 不 用 显 式 地 构造 分 析 树 或 属性 间 的 依 
赖 图 。 因 为 单 遍 扫描 的 实现 方式 对 提高 编译 的 效率 非常 重要 ， 所 以 本 章 主 要 致力 于 研究 这 种 情 
况 。 有 一 个 重要 的 子 类 称 为 “L- 属 性 ”定义 ， 实 际 上 它 包含 了 所 有 不 必 显 式 构造 分 析 树 即 可 完 
成 的 翻译 。 


5.1 语法 制导 定义 


语法 制导 定义 是 对 上 下 文 无 关 文 法 的 推广 ， 其 中 每 个 文法 符号 都 有 一 个 相关 的 属性 集 。 属 
性 分 为 两 个 子 集 ， 分 别称 为 该 文法 符号 的 综合 属性 和 继承 属性 。 如 果 把 分 析 树 中 对 应 该 文法 符 
号 的 节点 看 成 是 一 条 记录 ， 其 中 包含 若干 存储 信息 的 域 ， 那 么 属性 就 相当 于 一 个 域 的 名 字 。 

属性 可 以 代表 任何 对 象 : 字符 串 、 数 字 、 类 型 、 内 存单 元 或 其 他 对 象 。 分 析 树 节点 上 属性 
的 值 由 该 节点 所 用 产生 式 的 语义 规则 来 定义 。 节 点 的 综合 属性 值 是 通过 分 析 树 中 其 子 节点 的 属 
性 值 计 算出 来 的 ;而 继承 属性 值 则 是 由 该 节点 的 兄弟 节点 及 父 节点 的 属性 值 计 算出 来 的 。 

语义 规则 建立 了 属性 间 的 依赖 关系 ， 它 们 可 以 用 图 来 表示 。 从 依赖 图 中 我 们 可 以 得 到 语义 
规则 的 计算 顺序 。 语 义 规则 的 计算 定义 了 输入 符号 串 在 分 析 树 节点 上 的 属性 值 。 语 义 规则 还 可 
能 具有 副作用 ， 如 打印 一 个 值 或 修改 全 局 变量 等 。 当 然 ， 具 体 实现 时 可 能 不 必 显 式 地 构造 分 析 
树 或 依赖 图 ， 只 需 对 每 个 输入 串 产生 相同 的 输出 即 可 。 

我 们 将 号 个 节点 都 带 有 属性 值 的 分 析 树 称 为 注释 分 析 树 ， 而 计算 节点 属性 值 的 过 程 则 称 为 
注释 或 装饰 分 析 树 。 
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5.1.1 语法 制导 定义 的 形式 

在 语法 制导 定义 中 ， 每 个 产生 式 4 >a 都 有 一 个 形 如 b: = 了 (cc2…,cp) 的 语义 规则 集合 与 
之 相关 联 ， 其 中 /是 函数 ， 并 且 满 足下 面 两 种 情况 之 一 : 

1. b 是 4 的 一 个 综合 属性 ， 且 cu c2,…, ck 是 该 产生 式 文法 符号 的 属性 ; 

2. b 是 产生 式 右 部 某 个 文法 符号 的 一 个 继承 属性 ， 且 c1, cx …, ci 也 是 该 产生 式 文法 符号 的 
属性 。 

对 这 两 种 情况 都 称 为 属性 5 依赖 于 属性 cl cx, …, ct。 属性 文法 是 一 个 语法 制导 定义 ， 其 中 
语义 规则 中 的 函数 不 能 有 副作用 。 

语义 规则 中 的 函数 通常 被 写成 表达 式 的 形式 。 有 时 ， 语 法 制导 定义 中 某 个 规则 的 目的 就 是 
为 了 产生 副作用 。 这 种 语义 规则 一 般 被 写成 过 程 调 用 或 程序 段 。 在 这 种 情况 下 ， 可 以 把 它 看 作 
是 定义 产生 式 左 部 非 终结 符 的 虚 综 合 属性 值 ， 但 这 种 语义 规则 中 的 虚 属 性 各 符号 := 都 不 给 出 来 。 

例 5.1 图 5-2 是 一 个 台式 计算 器 程序 的 语 
法 制导 定义 。 该 定义 将 一 个 整数 值 综合 属性 val 











语义 规则 
print (E.val) 







也 一 En 


与 每 个 非 终 结 符 E, T 和 下 联系 起 来 。 对 每 个 E> E +T E.val := E,,val + T.val 
` aN E-T E.val := T.val 
DLE, TAF KERMES, SUM Te |e ue 
生 式 右 部 非 终结 符 的 val 值 计 算出 产生 式 左 部 T>F T.val := F.val 
非 终 结 符 的 val 值 。 FoCE) F.val := E.val 

D F ~ digit F.val := digit .lexval 





记号 digit 具有 综合 属性 lexval， 其 值 由 词 
法 分 析 器 提供 ， 而 产生 式 LOEn (其 中 LEX 图 5-2 一 个 简单 台式 计算 器 的 语法 制导 定义 
法 开始 符号 ) 所 对 应 的 语义 规则 只 是 一 个 打印 E 所 产生 的 算术 表达 式 的 值 的 过 程 ， 我 们 可 以 认 
为 该 规则 为 非 终结 符 工 定义 了 一 个 虚 属 性 。 图 4-56 中 给 出 了 该 台式 计算 器 的 Yace 规格 说 明 ， 
在 LR 语法 分 析 过 程 中 使 用 规格 说 明 进 行 翻译 。 口 


在 语法 制导 定义 中 ， 我 们 假设 终结 符 只 具有 综合 属性 ， 因 为 定义 没有 为 终结 符 提供 任何 语 
义 规 则 。 正 如 在 3.1 节 所 讨论 的 那样 ， 终 结 符 的 属性 值 通常 由 词法 分 析 器 提供 。 此 外 ， 假 设 开 
始 符号 不 具有 任何 继承 属性 ， 除 非 男 有 说 明 。 
5.1.2 综合 属性 

综合 属性 在 实践 中 具有 广泛 的 应 用 。 我 们 将 仅仅 使 用 综合 属性 的 语法 制导 定义 称 为 8 属性 
定义 。 在 8 属性 定义 的 分 析 树 中 ， 我 们 可 以 自 底 向 上 地 在 每 个 节点 用 语义 规则 来 计算 综合 属性 
值 ， 即 从 叶 节 点 到 根 节 点 进行 计算 。5.3 节 将 描述 如 何 修改 LR 语 法 分 析 器 生成 器 使 其 能 够 实现 
基于 LR 文法 的 5 属性 定义 。 


例 5.2 例 5.1 的 5 属性 定义 详细 说 明了 一 个 台式 计算 器 ， 它 读 和 包含 数字 、 插 号 、 运 算 符 
+ 和 * 的 算术 表达 式 ( 表达 式 后 面 跟 有 换行 符 n )， 并 打印 表达 式 的 值 。 例 如 ， 输 入 表达 式 
3*5+4， 后 跟 一 个 换行 符 n， 该 程序 将 打印 出 值 19。 图 5-3 是 输入 3*5+4n 的 注释 分 析 树 ， 树 
根 节点 输出 的 是 其 第 一 个 子 节点 的 Eval H. 

为 弄 清 属性 值 是 如 何 计算 的 ， 先 考虑 最 左边 最 底层 的 内 部 节点 ， 它 所 对 应 的 产生 式 是 F 
digit。 相 应 的 语义 规则 为 F.val := digit.lexval。 因 为 其 子 节 点 的 digitlexval 值 是 3， 所 以 该 节 
点 的 属性 F.val 的 值 也 为 3。 同 样 地 ,FF 节点 的 父 节点 的 属性 T.val 的 值 也 为 3。 

现在 考虑 产生 式 TOT * FF 所 对 应 的 节点 ， 其 属性 T.val 的 值 由 产生 式 了 一 Ti* FF 的 语义 规 
则 T.val := Ti.val x Frval 求 定义 。 对 此 节点 应 用 语义 规则 : 从 左 子 节点 可 以 得 到 Ti.val 的 值 为 3， 
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从 右 子 节点 可 以 得 到 F.val 的 值 为 5S， 故 求 得 在 这 一 节点 T.val 的 值 为 15。 


与 产生 式 L-*En 相关 联 的 语义 规则 打印 由 五 生成 的 表达 式 的 值 。 口 
L 
| `a 
E.val = 19 
E.val = 15 + T.val = 4 
i 
T.val = 15 F.val = 4 
T.val =3 * F.val =5 digit lexval = 4 
| 
F.val =3 digit./exval = 5 
digit. lexval = 3 


图 5-3 3*5+4n 的 注释 分 析 树 

5.1.3 继承 属性 

在 分 析 树 中 ,一 个 节点 的 继承 属性 值 是 由 该 节点 的 父 节 点 和 (或 ) 兄弟 节点 的 属性 决定 的 。 
用 继承 属性 来 表示 程序 设计 语言 上 下 文 结构 的 依赖 性 是 很 方便 的 。 例 如 ， 我 们 可 以 使 用 继承 属 
性 来 跟踪 一 个 标识 符 , 看 它 是 出 现在 赋值 号 的 左边 还 是 右边 来 确定 是 需要 它 的 地 址 还 是 它 的 值 。 
虽然 我 们 总 是 可 以 只 用 综合 属性 来 改写 语法 制导 定义 , 但 是 使 用 带 有 继承 属性 的 语法 制导 定义 
会 更 为 自然 。 

在 下 面 的 例子 中 ,继承 属性 将 类 型 信息 提供 给 声明 中 的 各 个 标识 符 。 


例 5.3 在 图 $-4 的 语法 制导 定义 中 ， 非 终结 符 D 所 产生 的 声明 是 由 关键 字 int 或 real 后 跟 
一 个 标识 符 表 所 组 成 的 。 非 终结 符 了 有 一 个 综合 属性 type ， 其 值 由 声明 中 的 关键 字 来 确定 。 与 
产生 式 D 一 TL 相关 联 的 语义 规则 Lin := T.type 用 来 将 继承 属性 Lin 置 为 所 声明 的 类 型 。 语 义 
规则 使 用 继承 属性 Lin 把 该 类 型 信息 沿 分 析 树 向 下 传递 。 与 工 产生 式 相 关联 的 语义 规则 调用 
过 程 adarype， 该 过 程 将 各 标识 符 的 类 型 填 加 到 符号 表 的 相应 表 项 中 (由 属性 entry 指向 )。 

图 5-5 给 出 了 语句 real idi, idz, id; 的 注释 分 析 树 。3 个 L PAN Lin 值 分 别 给 出 了 标识 符 
idi, id: 和 ids 的 类 型 。 这 些 值 是 按 下 面 的 方法 确定 的 : 首先 计算 根 的 左 子 节点 的 属性 值 T.type, 
然后 在 根 的 右 子 树 中 自 上 而 下 计算 3 个 工 节点 的 L.in 值 。 在 每 个 工 节点 处 ,我 们 还 调用 过 程 
addrype， 它 在 符号 表 中 记 下 相应 的 标识 符 类 型 ( 即 该 节点 的 右 子 节点 上 的 标识 符 类 型 为 
Teal )。 口 


语义 规则 









D-+TL L.in := T.type T.type = real L.in = real 

T ~ int T.type := integer | 

T ~ real T.type := real real Lin = real ? id; 
L —L,,ìid | Ly.in:= Lin Lin- ZO | Na 


addtype (id.entry, L.in) 


addtype (id.eniry, L.in) id, 


图 5-4 带 有 继承 属性 Lin 的 语法 制导 翻译 图 5-5 在 每 个 工 节 点 处 都 带 有 继承 属性 in 的 分 析 树 
5.1.4 依赖 图 
如 果 分 析 树 中 某 个 节点 的 属性 b 依赖 于 属性 ce， 那么 在 该 节点 处 b 的 语义 规则 必须 在 c 的 
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语义 规则 之 后 计算 。 分 析 树 中 各 节点 的 继承 属性 和 综合 属性 间 的 依赖 关系 可 以 用 有 向 图 来 描述 ， 
eena o 
在 构造 分 析 树 的 依赖 图 之 前 ， 我 们 为 每 个 包含 过 程 调用 的 语义 规则 引入 一 个 虚 综 合 属性 5， 
以 便 把 每 条 语义 规则 都 变 成 b := f (ci, cx …… ce) 的 形式 。 依 赖 图 的 每 个 节点 表示 一 个 属性 ， 边 
表示 属性 间 的 依赖 关系 ， 如 果 属 性 b 依赖 于 属性 c， 那 么 从 c 到 5 就 有 一 条 有 向 边 。 更 详细 地 
说 ,给 定 一 棵 分 析 树 ， 其 依赖 图 是 按照 下 面 的 步骤 构造 出 来 的 。 
for 分 析 树 的 每 个 节点 ndo 
for 与 节点 上 对 应 的 文法 符号 的 每 个 属性 a do 
在 依赖 图 中 为 a 构造 一 个 节点 ; 
for 分 析 树 的 每 个 节点 n do 
for 节点 n 所 用 产生 式 对 上 应 的 每 条 语义 规则 b := fc ce) do 
for i := 1 tok do 
从 节点 ci 到 节点 b 构造 一 条 有 向 边 ; 
例如 ， 假设 A.a := 了 (X.x, Yy) 是 产生 式 4 一 XY 的 一 条 语义 规则 ， 该 规则 定义 了 一 个 依赖 于 
属性 Xx 和 Yy 的 综合 属性 4.a。 如 果 分 析 树 中 含有 该 产生 式 ， 那 么 在 依赖 图 中 将 有 3 个 节点 
4.a，Xx 和 了 Y.y， 而 且 由 于 4.a 依赖 于 X.x， 所 以 有 一 条 从 Xx 到 4.a 的 有 向 边 ， 由 于 4.a 也 依 
赖 于 YYy， 所 以 还 有 一 条 从 了 Yy 到 Aa 的 边 。 
如 果 产 生 式 A 一 XY 所 关联 的 语义 规则 还 有 X.i:= 8 (Aa, 了 7)， 那 么 图 中 还 应 有 一 条 从 4.a 到 
Xi 的 边 ， 以 及 一 条 从 Y.y 到 Xi 的 边 ， 因 为 Xi 依赖 于 A.a 和 Y.y。 


例 5.4 只 要 下 列 产生 式 出 现在 分 析 树 中 ， 我 们 就 把 图 5-6 中 的 边 加 到 依赖 图 中 ， 
产生 式 语义 规则 
E~E,+E, E.val := E,.val + E4.val 
依赖 图 中 标记 为 "的 3 个 节点 代表 综合 属性 Eval, Eval 和 Eval, JA Ei.val 到 E.val 的 边 表示 
E.val 依赖 于 Eval, 同样 从 Es.val 到 E.val 的 边 表示 E.val 依赖 于 Es.val。 图 中 虚线 代表 分 析 树 ， 





它们 不 是 依赖 图 的 一 部 分 。 口 
例 5.5 图 5-7 给 出 了 图 5-5 中 分 析 EE 

树 的 依赖 图 。 依 赖 图 中 的 节点 用 数字 -一 

标记 ， 这 些 数字 将 在 后 面 用 到 。 从 节 foe : oN 

点 4 的 T.type 到 节点 5 的 Lin 有 一 条 val val 

边 ， 这 是 因为 根据 产生 式 DOTL 的 语 图 5-6 E.val Æ Eval 和 Eval 的 综合 

义 规 则 Lin := T.type ， 继 承 属性 Lin D 

依赖 于 综合 属性 T.type 。 因 为 产生 式 一 

L>L, , id 具有 语义 规则 Liin := Lin, Type OE eS 

从 而 导致 Liin 依赖 于 L.in， 所 以 有 一 sa 

两 条 向 下 的 边 进入 节点 7 和 9。 每 个 与 ~ 

L 产生 式 相关 联 的 语义 规则 addtype 一 > dy 2 entry 

(id.entry, Lin) BEDERE, PE 

节点 6，8 和 10 都 是 为 这 些 虚 属 性 建立 id; 1 entry 


的 。 口 图 5-7 图 5-5 中 分 析 树 的 依赖 图 
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5.1.5 计算 顺序 

无 环 有 向 图 的 拓扑 排序 是 图 中 节点 m, m2,…, mx 的 这 样 一 种 排序 : 车 mi 一 my 是 从 m Bi) my 
的 边 ， 那 么 在 此 排序 中 mi; 先 于 mo © 

依赖 图 的 任何 拓扑 排序 都 给 出 了 一 个 分 析 树 中 各 节点 语义 规则 计算 的 正确 顺序 ， 即 在 计算 
f 之 前 ， 语义 规则 b i=f(cicay, co 中 的 依赖 属性 Ci, C2 °°", Ck 都 是 已 知 的 。 

语法 制导 定义 所 说 明 的 翻译 可 以 像 下 面 这 样 精确 给 出 。 最 基本 的 文法 用 于 构造 输入 串 的 分 
析 树 ; 依赖 图 像 上 面 所 讨论 的 那样 建立 ; 从 依赖 图 的 拓扑 排序 可 以 得 到 语义 规则 的 计算 顺序 ; 
按 该 顺序 计算 语义 规则 即 可 得 到 输入 串 的 翻译 。 


例 5.6 在 图 $-7 的 依赖 图 中 ， 每 条 边 都 是 从 编号 小 的 节点 指向 编号 大 的 节点 ， 所 以 将 这 些 
节点 按 编号 从 小 到 大 写 出 即 可 得 到 该 依赖 图 的 一 种 拓扑 排序 。 从 该 拓扑 排序 可 以 得 到 下 面 的 翻 
译 程序 (其 中 a, 表示 依赖 图 中 编号 为 n 的 节点 的 属性 ): 

a4 := real; 

as := a4, 

addtype (id; .entry, as); 

Q) := as, 

addtype (id) .entry, az); 

addtype (id, entry, ay); 


对 这 些 语 义 规则 的 计算 将 把 类 型 real 存放 到 符号 表 中 每 个 标识 符 的 相应 表 项 中 。 口 
人 们 已 经 提出 了 一 些 计算 语义 规则 的 方法 : 
1. 分 析 树 法 。 在 编译 时 ， 这 种 方法 从 分 析 树 所 构成 的 依赖 图 的 拓扑 排序 中 得 到 语义 规则 的 
计算 顺序 。 若 所 考虑 的 特定 的 分 析 树 的 依赖 图 中 含有 环 路 ， 则 这 种 方法 将 会 失败 。 
2. 基于 规则 的 方法 。 在 编译 器 构造 时 ， 与 产生 式 相关 联 的 语义 规则 是 用 手工 或 专门 的 工具 


来 分 析 的 。 对 于 每 一 个 产生 式 ， 计 算 该 产生 式 所 关联 的 属性 的 顺序 在 编译 器 构造 时 已 经 预先 确 
定好 了 。 


3. 忽略 规则 的 方法 。 这 种 方法 选择 计算 顺序 时 不 考虑 语义 规则 。 例 如 ， 如 果 翻 译 是 在 语法 
分 析 过 程 中 进行 的 ， 那 么 计算 顺序 的 选择 就 由 语法 分 析 方 法 来 确定 ， 而 跟 语义 规则 无 关 。 这 种 
方法 限制 了 能 被 实现 的 语法 制导 定义 的 种 类 。 

基于 规则 的 方法 和 忽略 规则 的 方法 在 编译 时 都 不 必 显 式 地 构造 依赖 图 ， 因 此 它们 使 编译 的 
时 空 效 率 更 高 。 

如 果 某 个 文法 所 产生 的 某 些 分 析 树 的 依赖 图 中 存在 环 路 ， 则 其 语法 制导 定义 是 循环 的 。 
5.10 节 讨论 如 何 检测 语法 制导 定义 的 循环 性 。 


5.2 语法 树 的 构造 . 





在 本 节 中 ， 我 们 将 说 明 如 何 应 用 语法 制导 定义 来 完成 语法 树 的 构造 以 及 语言 结构 的 其 他 图 
形 表示 。 

用 语法 树 作为 中 间 表 示 ， 可 以 把 翻译 从 语法 分 析 中 分 离 出 来 。 在 语法 分 析 期 间 完 成 翻译 固 
然 有 很 多 优点 ， 但 也 存在 一 些 问 题 。 如 在 分 析 期 间 调 用 翻译 子 程序 受到 两 个 限制 。 首 先 ， 适 于 


O 当然， 拓扑 排 序 不 止 一 种 结果 。 一 一 译 者 注 
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语法 分 析 的 文法 可 能 并 不 反映 语言 成 分 的 自然 层次 结构 。 例 如 ，Fortran 的 文法 可 能 把 子 程序 看 
成 只 是 简单 地 由 语句 序列 组 成 的 ， 没 有 反映 出 Do 循环 的 典 套 。 如 果 我 们 采用 能 够 反映 Do 循环 
嵌 套 的 树 形 表 示 ， 那 么 子 程序 的 请 法 分 析 将 会 更 容易 一 些 。 其 次 ， 语 法 分 析 方 法 限制 了 分 析 树 
中 各 节点 的 考察 顺序 , 该 顺序 可 能 和 各 语法 成 分 的 信息 变 为 可 用 的 顺序 不 匹配 。 基 于 上 述 原因 ， 
C 编 译 器 通常 要 构造 语法 树 。 
5.2.1 语法 树 

(抽象 ) 语法 树 是 分 析 树 的 压缩 形式 ， 它 对 表示 语言 的 结构 很 有 用 。 如 产生 式 Sif B then 
Si else S: 在 语法 树 中 可 能 出 现 为 : 


if-then-else 
B Si S: 


在 语法 树 中 ， 运 算 符 和 关键 字 不 再 是 叶 节 点 ， 而 是 作为 内 部 节点 成 为 分 析 树 中 叶 节 点 的 父 
节点 。 语 法 树 的 另 一 个 简化 是 单产 生 式 〈 形 如 AB) 链 可 能 消失 ， 图 5-3 的 分 析 树 将 变 成 下 面 
的 语法 树 : 

. A N , 
A N 
3 5 

语法 制导 翻译 可 以 基于 语法 树 ， 也 可 以 基于 分 析 树 ， 其 方法 都 是 一 样 的 。 就 像 在 分 析 树 中 
那样 ， 我 们 也 可 以 给 语法 树 的 节点 附加 属性 。 
5.2.2 构造 表达 式 的 语法 树 

构造 表达 式 的 语法 树 类 似 于 把 表达 式 翻 译 成 后 缀 表示 。 我 们 通过 为 每 个 运算 符 和 运算 对 象 
建立 节点 来 为 子 表达 式 构造 子 树 。 运 算 符 节点 的 子 节点 分 别 是 表示 该 运算 符 各 运算 对 象 的 子 表 
达 式 组 成 的 子 树 的 根 。 

语法 树 的 每 个 节点 都 可 以 用 带 有 几 个 域 的 记录 来 表示 。 对 于 运算 符 节 点 ,记录 中 的 一 个 域 
用 来 标识 该 运算 符 ， 其 余 的 域 包含 指向 运算 对 象 的 指针 。 我 们 常常 将 运算 符 称 为 该 节点 的 标记 
(label )。 在 翻译 时 ， 语 法 树 的 节点 可 能 还 有 一 些 其 他 域 用 来 保存 附加 在 该 节点 上 的 属性 值 (或 
指向 属性 值 的 指针 )。 在 本 节 中 ， 我 们 用 下 列 函数 建立 带 有 二 元 运算 符 的 表达 式 的 语法 树 节点 ， 
每 个 函数 都 返回 一 个 指向 新 建 节点 的 指针 : 

1. mknode(op, left, right)。 它 建立 一 个 标记 为 op 的 运算 符 节 点 ， 其 两 个 域 left 和 right $248 
向 其 左右 运算 对 象 的 指针 。 

2. mkleaf (id, entry)。 它 建立 标记 为 id 的 标识 符 节点 ， 其 域 entry 是 指向 该 标识 符 在 符号 表 
中 的 相应 表 项 的 指针 。 

3. mkleaf (num, val)。 它 建立 标记 为 num 的 数 节点 ， 域 val 保存 该 数 的 值 。 


例 5.7 下 面 的 函数 调用 序列 用 来 建立 图 
5-8 中 表达 式 a-4+c 的 语法 树 。 在 该 序列 中 pi， 
Pos, ps 是 指向 节点 的 指针 ，entrya 和 entryc 
分 别 指向 符号 表 中 标识 符 a 和 c 对 应 的 表 项 。 


(1) p, := mkleaf (id, entrya); 





到 c 的 表 项 


到 a 的 表 项 
图 5-8 a-4+c 的 语法 树 
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(2) pı := mkleaf (num, 4); 

(3) p, := mknode('-', pi, p2); 
(4) p4 := mkleaf (id, entryc); 
(5) ps := mknode('+', P3, p4); 


该 树 是 自 底 向 上 构造 的 ， 户 数 调用 mkleaf (id, entrya) 和 mkleaf (num, 4) 分 别 为 a 和 4 建立 
叶 节 点 ， 指 向 这 两 个 节点 的 指针 保存 在 pi 和 po 中; 然后， 函数 调用 mknode('-’, p: ，p2) 构 造 一 
个 内 部 节点 ， 其 子 节点 为 叶 节 点 a 和 4; 再 经 过 两 步 即 可 建立 起 语法 树 ，p;s 指 向 根 节点 。 o 
5.2.3 构造 语法 树 的 语法 制导 定义 

图 5-9 是 为 包含 + 和 -的 表达 式 的 构造 
语法 树 的 S 属性 定义 。 它 通过 为 文法 的 基 









语义 规则 


E= ET E.nptr := mknode('+', E,.nptr, T.nptr) 
本 产生 式 安 排 函数 mknode 和 mkleaf 的 调 E>E -T E.nptr := mknode('-', E,.nptr, T.nptr) 
用 来 构造 语法 树 。E 和 7 的 综合 属性 nptr ky | te = Eom 
用 来 记 住 函数 调用 返回 的 指针 。 T ~ id T.nptr := mkleaf (id, id.entry) 
:= mkleaf (num, num. val} 
$5.8 图 5-10 是 一 棵 注释 分 析 树 ， 用 


于 描述 表达 式 a- 4+c 的 语法 树 的 构造 。 图 5-9 构造 表达 式 的 语法 树 的 语法 制导 定义 
分 析 树 用 虚线 表示 。 非 终结 符 E 和 7 标记 的 分 析 树 节点 用 综合 属性 mprr 来 保存 指向 语法 树 中 
该 非 终 结 符 所 代表 的 表达 式 市 点 的 指针 。 

产生 式 Tid 和 7 一 num 所 对 应 的 语义 规则 将 属性 T.nptr 定义 为 指向 标识 符 和 数 的 新 建 叶 
节点 的 指针 。 属 性 id.entry 和 numval 是 词法 值 ， 假 设 词法 分 析 器 将 这 些 值 连 同 记号 id 和 
num 一 起 返回 。 

在 图 5-10 中 ， 当 表达 式 王 是 一 个 单个 项 时 ， 即 使 用 产生 式 E 一 T 时 ， 属 性 Enptr 得 到 
T.nptr 的 值 。 当 使 用 产生 式 E 一 E1-7 所 对 应 的 语义 规则 E.npir := mknode (—', E..nptr, T.nptr) 
时 ， 先 前 的 规则 已 经 把 .nptr 和 7T.npir 分 别 置 成 指向 叶 节点 a 和 4 的 指针 。 


E nptr 
E npr + 1 T nptr 
: 1 : 1 
. 1 : 
E - | T nptr I id | 
: ; 1 1 
T nptr i num | ' i 
: i 1 
id t 1 
1 1 
1 





到 a HRM 


图 5-10 a-4+c 的 语法 树 的 构造 


对 图 5-10 的 解释 关键 要 认识 到 ， 由 记录 形成 的 低层 树 才 是 构成 输出 的 “真正 的 ”语法 树 ， 
而 上 层 虚 线形 成 的 树 是 分 析 树 ， 在 此 处 只 具有 象征 意义 。 在 下 一 节 中 ， 我们 将 说 明 如 何 用 自 底 
向 上 语法 分 析 器 的 栈 来 保存 属性 值 以 实现 S 属性 定义 。 事 实 上 ， 在 这 种 实现 中 ， 节 点 建立 函数 
的 调用 顺序 和 例 5.7 中 的 顺序 相同 。 口 
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5.2.4 表达 式 的 无 环 有 向 图 

表达 式 的 无 环 有 向 图 (directed acyclic graph， 后 面 简称 dag ) 可 以 识别 表达 式 中 的 公共 
子 表达 式 。 和 语法 树 一 样 ， 在 dag 中 ， 表 达 式 中 的 每 一 个 子 表 达 式 都 有 一 个 节点 与 之 对 应 。 内 
部 节点 代表 运算 符 ， 子 节点 代表 其 运算 对 象 。 不 同 的 是 ， 在 dag 中 ， 代 表 公共 子 表达 式 的 节点 
具有 多 个 “ 父 节 点 ”， 而 在 语法 树 中 ， 公 共 子 
表达 式 由 重复 的 子 树 表示 ， 所 以 它 只 有 一 个 父 


节点 一 >` 

图 5-11 是 表达 式 a+a* (b-c)+(b-c)xd 的 N . Lo N a 
dag。 其 叶 节 点 a 具 有 两 个 父 节 点 ， 因 为 a 是 两 Æ N 
个 子 表达 式 a 和 ax (b-c) 的 公共 子 表达 式 。 类 a S - S 


似 地 ， 公 共 子 表达 式 b-c 的 两 次 出 现 也 由 同一 
个 节点 表示 ， 相 应 地 亦 拥有 两 个 父 节 点 。 

如 果 我 们 修改 构造 节点 的 函数 ， 图 5$-9 的 语 
法 制导 定义 即 可 用 于 构造 dag 而 不 是 语法 树 : 只 要 在 构造 节点 之 前 先 检 查 是 否 存在 相同 节点 ， 
就 可 以 得 到 dag。 例 如 ， 在 以 标记 op 和 指向 left 和 right 的 指针 的 域 构造 新 节点 之 前 ， 
mknode (op, left, right) 先 检查 是 否 已 经 存在 这 样 的 节点 。 如 果 存 在 的 话 ，mknode (op, left, 
right) 可 以 返回 一 个 指向 先前 已 构造 好 了 的 节点 的 指针 ， 叶 节点 构造 函数 mkieaf 可 采用 类 似 
的 修改 。 


$15.9 如 果 mknode 和 mkleaf 仅 在 必要 时 才 建 立新 节点 ， 而 且 尽 量 返回 指向 具有 正确 标 
记 和 子 节 点 的 现存 节点 的 指针 ， 那 么 图 $-12 的 指令 序列 将 构造 出 图 $-11 的 dag。 在 图 $-12 中 a, 
b,c Md 分别 指向 符号 表 中 标识 符 a, b, c 和 da 的 表 项 。 


图 5-11 表达 式 a+ax (Pb-c)+(b-c)xdq 的 dag 


:= mkleaf Cid, a); := mkleaf (id, b); 
:= mkleaf Cid, a); := mkleaf (id, c); 
3 := mkleaf (id, 


= mknode('-', pg, Py); 
:= mkleaf (id, c}; := mkleaf (id, d); 
s := mknode('-', py, Pa); = 
:= mknode (’#', pa, Ps); = 
:= mknode('+', Pi, Po); 


mknode ('*', Pio, Pn); 
mknode (+ P3, P12); 





图 5-12 构造 图 $-11 的 dag 的 指令 


在 第 (2) 行 重复 调用 mkleaf id，q 时 ， 前 一 个 mkleaf (id, a) 调用 所 构造 的 节点 将 被 返回 ， 
所 以 pi = p; 。 类 似 地 ， 第 (8) 行 和 第 (9) 行 返回 的 节点 分 别 与 第 (3) 行 和 第 (4) 行 返回 的 节点 相同 。 


因此 ， 第 (10) 行 返回 的 节点 和 第 (5) 行 调用 mknode 所 构造 的 节点 是 相同 的 。 口 
如 图 5-13 所 示 ， 在 许多 应 用 中 节点 都 被 实现 为 记录 保存 在 数组 中 。 图 中 每 个 记录 都 有 一 个 
赋值 语句 dag 
N 到 的 表 项 
i:zi+10 + 
SN 
i 10 





图 5-13 用 数组 来 保存 i := i+10 的 dag 中 的 节点 
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标记 域 ， 它 决定 了 节点 的 性 质 。 可 以 通过 节点 在 数组 中 的 下 标 或 位 置 来 引用 节点 。 由 于 历史 原 
因 ， 节 点 的 整数 索引 通常 被 称 为 值 编号 (value number )。 例 如 ， 使 用 值 编号 ,我 们 可 以 说 节点 


3 的 标记 为 + ， 其 左 子 节点 为 节点 1， 右 子 节点 为 节点 2。 下 面 的 算法 可 用 来 为 表达 式 的 dag 表 示 
创建 节点 。 


算法 5.1 构造 dag 节 点 的 值 编 号 法 。 

假设 节点 保存 在 一 个 数组 中 ( 就 像 图 5-13 中 那样 )， 而 且 每 个 节点 通过 其 值 编号 来 引用 。 
令 运 算 符 节 点 的 签名 (signature) 为 一 个 三 元 组 < op，!，r>， 其 中 op 为 标记 ，! 为 左 子 节点 ， 
r 为 右 子 节点 。 

输入 ， 标记 oop、 节点! 及 节点 r。 

输出 : 带 有 签名 <op, 1, re 的 节点 。 

方法 ; 搜索 数组 ， 寻 找 具有 标志 op ， 且 左 子 节点 为 1， 右 子 节点 为 上 的 节点 mm。 如果 存在 ， 
则 返回 m;， 否则 ， 创 建 一 个 新 节点 na， 将 其 标记 域 置 为 op ， 左 子 节点 置 为 !， 右 子 节点 置 为 r， 
并 返回 n。 

确定 节点 m 是 否 已 经 存在 于 数组 中 的 一 个 简单 方法 是 将 前 面 建立 的 所 有 节点 保存 在 一 个 列 
表 中 ， 然 后 依次 查看 列表 中 的 每 个 节点 ， 看 其 是 否 具 有 所 要 求 的 签名 。 使 用 个 称 为 桶 的 列表 
可 以 提高 查找 节点 m 的 效率 ， 而 散 列 函数 h 用 来 确定 要 搜索 的 桶 。? 

散 列 函数 hh 根据 op, | 和 r 的 值 来 计算 散 列 桶 的 序号 。 给 定 相 同 的 参数 ， 它 总 是 返回 相同 
的 桶 号 。 如 果 节 点 m 不 在 散 列 桶 h (op，1，r) 中 ， 就 创建 一 个 新 节点 n， 并 将 其 加 入 该 散 列 桶 
中 ， 所 以 接 下 来 的 搜索 将 会 发 现 它 已 经 在 该 桶 中 了 。 不 同 的 签名 可 能 会 被 散 列 到 同一 个 散 列 桶 
中 9， 但 实际 上 我 们 希望 每 个 桶 只 包含 少数 节点 。 

可 以 像 图 5-14 那 样 用 链表 来 实现 每 个 散 列 桶 。 链 表 中 的 每 个 单元 代表 一 个 节点 。 散 列 桶 的 
首部 是 指向 链表 中 第 一 个 单元 的 指针 ， 我 们 将 
其 保存 在 数组 中 。 由 散 列 函数 h (op, 1, r) 返 





回 的 桶 序号 是 该 数组 的 一 个 下 标 。 ees 9 TS 
对 于 非 顺 序 存 储 的 节点 ， 我 们 可 以 修改 此 

算法 。 在 许多 编译 器 中 ， 为 避免 预 分 配 一 个 大 20 

部 分 时 间 保 存 太 多 节点 而 有 时 又 没有 保存 足够 


节点 的 数组 ， 节 点 是 按照 需要 进行 分 配 的 。 在 图 5-14 搜索 散 列 桶 的 数据 结构 
这 种 情况 下 ， 我 们 就 不 能 假定 节点 是 顺序 存放 的 了 ， 此 时 必须 用 指针 来 访问 节点 。 如 果 可 以 设 
计 一 个 能 根据 标记 值 和 指向 子 节点 的 指针 来 计算 散 列 桶 号 的 散 列 函数 ， 那 么 我 们 就 可 以 使 用 指 


向 节点 的 指针 而 不 是 值 编 号 。 和 否则， 我 们 可 以 以 任何 方式 对 节点 进行 编号 并 用 这 些 编号 作为 节 
点 的 值 编号 。 口 


由 于 dag 可 以 有 多 个 根 节点 ， 因 此 dag 可 以 用 来 表示 表达 式 的 集合 。 在 第 9 章 和 第 10 章 中 ， 
赋值 语句 序列 所 执行 的 计算 将 被 表示 为 一 个 dag。 


© 实现 Aho, Hopcroft, and Ullman[1983] 中 提出 的 字典 的 任何 数据 结构 都 可 以 满足 这 里 的 需要 。 该 数据 结构 的 
重要 性 质 是 : 给 定 一 个 关键 字 ， 即 标记 op 和 两 个 节点 ! 和 r， 我 们 可 以 很 快 地 获得 带 有 签名 <op, L r> 的 
节点 ， 或 确定 不 存在 这 样 的 节点 。 

合 我 们 可 以 通过 外 散 列 法 米 解决 这 种 神 突 。 一 一 译 者 注 
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5.3 自 底 向 上 计算 S 属 性 定义 


既然 我 们 已 经 知道 了 怎样 使 用 语法 制导 定义 来 说 明 翻 译 ， 现 在 我 们 就 可 以 研究 如 何 实现 这 
种 翻译 器 了 。 针 对 任意 一 个 语法 制导 定义 的 翻译 器 可 能 很 难 建立 ， 但 是 有 很 多 种 语法 制导 定义 
的 翻译 器 却 是 很 容易 建立 的 。 本 节 中 ， 我 们 将 主要 考虑 这 样 一 类 语法 制导 定义 ; S 属 性 定义 。 
它 是 一 种 只 含有 综合 属性 的 语法 制导 定义 。 下 面 几 节 我 们 还 将 考虑 具有 继承 属性 的 语法 制导 定 
义 的 实现 。 

综合 属性 可 以 在 分 析 输 入 串 的 同时 由 自 底 向 上 的 语法 分 析 器 来 计算 。 这 种 语法 分 析 器 可 以 
将 文法 符号 的 综合 属性 值 保 存在 栈 中 ， 每 当 进 行 归 约 时 ， 新 的 综合 属性 值 就 由 栈 中 正在 归 约 的 
产生 式 右 部 符号 的 属性 值 来 计算 。 本 节 将 说 明 如 何 扩充 语法 分 析 栈 ， 使 之 能 够 保存 这 些 综合 属 
性 的 值 。 在 5.6 节 ， 我 们 将 看 到 这 种 实现 方式 也 可 用 于 某 些 继承 属性 。 

在 图 5-9 中 ， 构 造 表 达 式 语法 树 的 语法 制导 定义 中 只 有 综合 属性 出 现 。 因 此 可 以 用 本 节 的 
方法 在 自 底 向 上 的 语法 分 析 过 程 中 构造 语法 树 。 在 5.5 节 中 我 们 将 看 到 ， 在 自 顶 向 下 的 语法 分 
析 过 程 中 表达 式 的 翻译 经 常会 用 到 继承 属性 。 因 此 我 们 将 在 下 一 节 考 查 了 “ 自 左 向 右 ” 的 依赖 
关系 以 后 再 讨论 自 顶 向 下 语法 分 析 过 程 的 翻译 。 
语法 分 析 栈 中 的 综合 属性 

S 属 性 定义 的 翻译 器 可 以 借助 LR 语 法 分 析 器 生成 器 来 实现 ， 如 4.9 节 所 讨论 的 Yacc。 从 一 
个 S 属 性 定义 ， 语 法 分 析 器 生成 器 可 以 在 分 析 输 入 时 构造 一 个 计算 属性 的 翻译 器 。 

自 底 向 上 语法 分 析 器 用 栈 来 保存 已 分 析 子 树 的 信息 ， 我 们 可 以 在 分 析 栈 中 使 用 一 个 附加 的 
域 来 保存 综合 属性 值 。 图 $-15 给 出 了 一 个 带 有 一 个 属性 值 空 间 的 分 析 栈 的 例子 。 我 们 假设 图 中 
的 栈 是 由 一 对 数组 state 和 val 来 实现 的 。 每 个 state 表 
项 都 是 一 个 指向 LR(1) 语 法 分 析 表 的 指针 (或 索引 ) ( 注 
意 , 文法 符号 隐 含 在 state 中 而 无 需 存放 在 栈 中 )。 但 是 ， 

为 方便 起 见 ， 像 4.7 节 那样 将 文法 符号 放 人 栈 中 时 ， 我 op = 
们 用 单个 文法 符号 来 代替 状态 。 如 果 第 i 个 state 符号 是 
A, IBA valli) REWRE A 节点 的 属性 值 。 

当前 栈 顶 由 指针 top 指示 ， 我 们 假设 综合 属性 正好 ”图 5-15 带 有 综合 属性 域 的 分 析 栈 
是 在 每 次 归 约 之 前 计算 的 。 假设 与 产生 式 4 一 XYZ 相关 联 的 语义 规则 是 Aa :=f(X.x, Vy, Z2)c 
在 将 XYZ 归 约 为 4 之 前 , 属性 Zz 的 值 在 val[top] 中 ，Y.y 的 值 在 val [top-1] 中 ，X.x 的 值 在 
val [top-2] 中 。( 如 果 符 号 没有 属性 ， 那 么 val 数组 中 相应 的 元 素 就 没有 定义 。) GAVE, top 减 
2，4 的 状态 放 在 state [top] 中 ( 即 X 原来 的 位 置 )， 综合 属 性 Aa 的 值 放 在 val [top] 中 。 


例 5.10 再 次 考虑 图 5-2 中 台式 计算 器 的 语法 制导 定义 。 图 5-3 注 释 分 析 树 上 的 综合 属性 值 
可 以 由 LR 语 法 分 析 器 在 分 析 输 入 串 3*5+4n 时 计算 出 来 。 同 前 ， 假 设 属性 digit.lexval 的 值 由 
词法 分 析 器 提供 ， 它 是 代表 数字 的 每 个 记号 的 数值 。 当 语法 分 析 器 把 digit 移 进 栈 时 ， 记 号 
digit 放 在 state[top] 中 ， 其 属性 值 放 在 val [top] 中 。 

我 们 可 以 用 4.7 节 的 技术 来 构造 该 文法 的 LR 语法 分 析 器 。 为 了 计算 属性 ， 我 们 修改 语法 分 
析 器 ， 使 其 在 归 约 前 执行 图 $-16 中 的 代码 段 。 注 意 ， 由 于 每 次 归 约 前 都 要 确定 应 该 选择 哪个 产 
生 式 ， 因 此 我 们 可 以 将 属性 的 计算 和 归 约 动作 联系 起 来 。 图 中 的 代码 段 是 从 图 5-2 的 语义 规则 
得 来 的 ， 只 是 将 其 中 的 属性 值 蔡 换 为 val 数组 中 的 位 置 而 已 。 

代码 段 中 没有 说 明 变 量 top 和 ntop 是 如 何 管理 的 。 如 果 归 约 的 产生 式 右 部 有 个 符 导 ， 则 








state val 
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置 ntop 为 top -r + 1。 每 个 代码 段 执 行 完 之 
ja, WS top 为 ntopo 

图 5-17 给 出 了 语法 分 析 器 在 输入 串 
3*5+4n 上 的 移动 序列 ， 图 中 还 给 出 了 每 次 
移动 后 分 析 栈 中 state 和 val 域 的 内 容 。 我 
们 仍然 用 相应 的 文法 符号 来 代替 栈 中 的 状 
态 。 同 时 为 直观 起 见 ， 用 实际 的 输入 数字 来 
代替 记号 digit。 

考虑 遇 到 输入 符号 3 时 的 事件 序列 。 第 
一 步 ， 语 法 分 析 器 把 记号 digit ( 其 属性 值 
为 3 ) 的 状态 移 进 栈 中 ( 状态 用 3 来 表示 ， 而 
且 值 3 放 在 val 域 中 )。 第 二 步 ， 语 法 分 析 
器 用 产生 式 F>digit 归 约 ， 并 执行 语义 规则 
F.val := digit.iexval。 第 三 步 ， 语 法 分 析 器 
用 产生 式 7 一 F 归 约 。 因 为 没有 代码 段 与 该 
产生 式 相 关联 ， 所 以 val 数组 没有 改变 。 注 
意 , 每 次 归 约 后 ，val 栈 顶 存放 的 是 与 归 约 
时 所 用 产生 式 左 部 相关 联 的 属性 值 。 口 


在 上 面 描述 的 实现 中 ， 代 码 段 正好 在 归 
约 之 前 执行 。 归 约 提供 了 一 个 “ 挂 钧 "， 任 
何 代码 段 所 组 成 的 动作 都 可 以 挂 在 “ 挂 钧 ” 
土 。 也 就 是 说 ， 我 们 可 以 允许 用 户 把 一 个 动 
作 和 一 个 产生 式 联系 起 来 ， 该 动作 是 利用 该 
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print (val {top |) 
val (ntop | := vai [top — 2+ val |top | 


val lntop ] := val [top — 2] val {top | 


val [ntop | := val [top — 1] 
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图 5-17 翻译 器 在 输入 3* 5+4n 上 所 做 的 移动 


产生 式 进行 归 约 时 要 被 执行 的 。 下 一 节 讨 论 的 翻译 模式 提供 了 一 种 将 语义 动作 与 语法 分 析 交 叉 
进行 的 表示 法 。 在 5.6 节 中 ， 我 们 将 看 到 更 大 的 一 类 语法 制导 定义 可 以 在 自 底 向 上 的 语法 分 析 过 


程 中 实现 。 
5.4 上 属性 定义 


在 语法 分 析 过 程 中 进行 翻译 时 ， 属 性 的 计算 顺序 将 与 分 析 方 法 建立 分 析 树 节点 的 顺序 相 


关 。 有 一 种 能 够 描述 许多 种 自 顶 向 下 和 自 
底 向 上 翻译 方法 的 自然 顺序 ， 那 就 是 深度 
优先 顺序 ， 以 分 析 树 的 根 为 参数 调用 图 
5-18 的 过 程 dfvisit 即 可 得 到 该 顺序 。 即 使 
没有 实际 构造 分 析 树 ， 分 析 树 节点 属性 的 
深度 优先 计算 对 研究 语法 分 析 期 间 的 翻译 
也 非常 有 用 。 

现在 我 们 介绍 一 种 语法 制导 定义 ， 它 


procedure dfvisit (n: node); 
begin 
for rn 的 每 个 子 节点 m〈 从 左 到 右 ) do begin 
计算 m 的 继承 属性 ; 


dfvisit (m) 
end; 


计算 的 综合 属性 


end 


图 5-18 分 析 树 属性 的 深度 优先 计算 顺序 





称 为 L 属 性 定义 ， 其 属性 总 可 以 用 深度 优先 顺序 来 计算 其 中 L 表示 左 ， 因 为 属性 信息 是 从 左 
向 右 传 播 的 )。 本 章 下 面 的 3 节 将 讨论 L 属 性 定义 的 实现 。L 属 性 定义 包括 所 有 基于 LL(1) 文 法 的 
语法 制导 定义 ,5.5 节 将 给 出 一 种 使 用 预测 分 析 法 并 用 一 遍 扫 描 即 可 实现 这 类 L 属 性 定义 的 方法 。 
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通过 对 5.3 节 翻译 方法 的 扩充 ，5.6 节 将 在 自 底 向 上 语法 分 析 期 间 实现 更 大 的 一 类 L 属 性 定义 。 
5.7 节 将 给 出 一 种 实现 所 有 IL 属 性 定义 的 通用 方法 。 
5.4.1 上 属性 定义 

一 个 语法 制导 定义 是 上 属性 定义 ， 如 果 对 每 个 产生 式 AXX X, RARS X << 
n) 的 每 个 继承 属性 仅 依赖 于 下 列 属性 : 

1. 产生 式 中 六 左边 的 符号 Xi, X, , Xah 











产生 式 语义 规则 





A > LM i := (A.i) 
属性 。 := m(L.s) 
2. 4 的 继承 属性 。 := f (Ms) 
注意 ,每 个 S 属性 定义 都 是 L 属 性 定义 ， 因 为 1 A> QR := r(A.i) 
和 2 只 限制 了 继承 属性 。 T WO» 
例 5.11 图 5-19 的 语法 制导 定义 不 是 L 属性 定 ae. peak y 
义 ， 因 为 文法 符号 @ 的 继承 属性 Qi 依赖 于 属性 FAS-19 AFL ATENE Se 


R.s， 而 RR 在 Q 的 右边 。5.8 节 和 5.9 节 还 有 一 些 其 他 非 L 属性 的 语法 制导 定义 的 例子 。 口 
5.4.2 翻译 模式 

翻译 模式 就 是 将 文法 符号 同属 性 相关 联 的 上 下 文 无 关 文法 ， 而 且 包 含 在 { } 中 的 语义 动作 
可 以 插入 产生 式 右 部 的 某 个 位 置 ( 如 2.3 节 )。 在 本 章 中 ,说 明 语法 分 析 过 程 中 所 进行 的 翻译 时 ， 
我 们 将 翻译 模式 作为 一 种 有 用 的 表示 法 。 

本 章 所 考虑 的 翻译 模式 可 以 同时 具有 综合 属性 和 继承 属性 。 在 第 2 章 所 考虑 的 简单 翻译 模式 
中 ,属性 的 类 型 为 字符 串 ， 每 个 符号 具有 一 个 属性 ， 而 且 对 每 个 产生 式 4 一 X … X ,语义 规则 
把 Xi ,…,X 的 属性 字符 串 依 次 连接 起 来 形成 4 的 属性 字符 串 ， 在 此 拼接 过 程 中 还 可 以 加 入 其 他 
可 选 串 。 显 然 ， 按 照 语义 规则 中 字符 串 出 现 的 顺序 简单 地 打印 出 这 些 字符 串 ， 就 可 以 完成 翻译 。 


例 5.12 下 面 就 是 一 个 简单 翻译 模式 ， 它 把 带 有 加 号 和 减 号 的 中 缀 表达 式 翻 译 成 后 织 表 达 
式 。 对 第 2 章 的 翻译 模式 (2-14) 稍 加 修改 即 可 得 到 该 翻译 模式 。 
E > TR 


R > addop T {print(addop.lexeme)} R, | € (5-1) © 
T > num {print(num.yval)} 


图 5-20 是 输入 串 9-5+2 的 分 析 树 ， 每 个 语义 动作 都 作为 产生 式 左 部 所 对 应 节点 的 子 节点 。 
实际 上 ,我 们 将 语义 动作 看 成 是 终结 符 ， 对 确定 动作 何 时 执行 来 说 , 它 是 一 种 方便 的 助 记 符号 。 
图 中 用 具体 的 数字 和 加 (R) 运算 符 代 替 了 记号 num 和 addop。 当 以 深度 优先 顺序 执行 图 
5-20 中 的 动作 时 ， 其 输出 为 95-2+。 口 


oo, 


N 


9 {print('9')} -I T { print('~') } 


5° { print(’5') } + T. { print('+’) } R 
2” { print(’2') } 
图 $-20 9-5+2 的 带 有 动作 的 分 析 树 
设计 翻译 模式 时 ， 我 们 必须 遵守 某 些 限制 以 保证 当 某 个 动作 引用 一 个 属性 时 它 是 可 用 的 。 
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L 属 性 定义 所 规定 的 这 些 限制 确保 一 个 动作 不 会 引用 一 个 还 没有 计算 出 来 的 属性 。 
只 需要 综合 属性 的 情况 最 为 简单 。 在 这 种 情况 下， 我 们 这 样 来 建立 翻译 模式 ， 为 每 个 语义 
规则 建立 一 个 赋值 动作 ， 并 把 该 动作 放 在 产生 式 右 部 的 末尾 。 例 如 ， 产 生 式 和 语义 规则 
产生 式 语义 规则 
ToT,+*F T.val := T,.val x F.val 
产生 的 产生 式 和 语义 动作 为 : 
T >T, aF {T.val := T,.val x F.val} 


如 果 同 时 存在 继承 属性 和 综合 属性 ， 则 需要 注意 : 

1. 产生 式 右 部 符号 的 继承 属性 必须 在 这 个 符号 以 前 的 动作 中 计算 出 来 。 

2. 一 个 动作 不 能 引用 该 动作 右边 符号 的 综合 属性 。 

3. 产生 式 左 部 非 终结 符 的 综合 属性 只 有 在 其 引用 的 所 有 属性 都 计算 出 来 以 后 才能 计算 。 计 
算 该 属性 的 动作 通常 放 在 产生 式 右 部 的 末尾 。 

下 面 两 节 将 说 明 满足 上 述 3 点 要 求 的 翻译 模式 如 何 由 一 般 的 自 顶 向 下 和 自 底 向 上 语法 分 析 
器 来 实现 。 

下 面 的 翻译 模式 不 满足 上 述 3 点 要 求 中 的 第 1 点 : 

S> A, A, { Ay.in := 1, Ain := 2} 

Ava { print(A.in) } 

可 以 看 出 ， 对 输入 串 aa 的 分 析 树 进行 深度 优先 遍历 时 ， 当 试图 打印 第 二 个 产生 式 的 Ain 
值 时 ， 继 承 属 性 A.in 尚未 定义 。 也 就 是 说 ， 从 5 开始 进行 深度 优先 遍历 ， 在 访问 A 和 A 的 子 
树 之 前 ，Alin 和 Adin 未 被 置 值 。 如 果 定 义 Ain 和 hz.in 的 值 的 动作 髓 在 S414; 右 部 的 hi 之 
前 ,那么 每 次 执行 print (A.in) HY, Ain 将 被 定义 。 

从 一 个 车 属性 语法 制导 定义 ,我 们 总 能 构造 出 满足 上 述 3 个 条 件 的 翻译 模式 。 下 面 的 例子 
说 明了 这 种 构造 过 程 ， 它 基于 数学 排版 语言 EQN (在 1.2 节 曾 简单 描述 过 )。 给 定 输入 


E sub 1 .val 


BQN 将 E，1 和 val 按 不 同 大 小 放 在 相应 的 位 置 上， 如 图 E 
5-21 所 示 。 注 意 ， 其 中 下 标 ! 将 以 较 小 的 字体 印 ， 并 且 其 
位 置 也 低 于 E 和 .val。 图 5-21 盒子 的 语法 制导 布局 


例 5.13 ”从 图 5-22 的 工 属性 定义 我 们 可 以 构造 出 图 $-23 的 翻译 模式 。 图 中 非 终结 符 B (R 
MEF) 代表 一 个 公式 。 产 生 式 BOB B 代表 两 个 盒子 的 并 列 ，B 一 B sub B 代表 一 种 布局 ， 其 
中 第 二 个 盒子 是 第 一 个 盒子 的 下 标 ， 它 的 尺寸 较 第 一 个 盒子 小 ， 并 被 放 在 合适 的 位 置 上 。 

继承 属性 ps ( 以 点 计 的 尺寸 ) 将 影响 公式 的 高 度 。 产 生 式 B 一 text 的 语义 规则 用 来 计算 
正文 的 实际 高 度 ， 即 正文 的 标准 高 度 乘 以 B.ps。 给 定 记 号 text 所 代表 的 字符 ， 通 过 查 表 即 可 
获得 text 的 属性 h。 应 用 产生 式 B 一 BBN, Bi 和 有 通过 复制 规则 继承 了 B 的 ps 属性 。B 的 
高 度 由 综合 属性 ht 表示 ，B 是 B1 和 B, 高 度 的 最 大 值 。 

使 用 产生 式 B 一 B: sub Bs 时， 函数 shrink 将 Bz.ps 缩小 30% ， 函 数 disp 在 计算 B 的 高 度 
时 把 盒子 B, 向 下 放置 。 此 处 没有 给 出 产生 实际 排版 命令 的 语义 规则 。 

图 5-22 中 的 定义 是 L 属性 定义 。 惟 一 的 继承 属性 是 B.ps， 定 义 ps 的 每 个 语义 规则 仅 依赖 
于 产生 式 左 部 非 终结 符 的 继承 属性 ， 所 以 该 定义 是 世 属性 定义 。 
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语义 规则 {B.ps := 10} 
S—~+B B.ps := 10 { S.ht :三 B.ht } 
S.ht := B.ht { B,.ps := B.ps} 
B > B, B, Bips := B.ps ` B, {By,.ps := B.ps} 
Ba ps := Bps B, {B.ht := max(Bi.ht, By-ht)} 
B.ht := max(B,.hi, By.ht) {Bips := B.ps } 
B > B, sub B, Bi.ps := B.ps B, l 
B,.ps := shrink(B-ps) sub {B2.ps := shrink (B.ps) } 
B.ht := disp(By.ht, By.ht) Bı { B.he = disp(B, ht, By-ht) } 





B — text {B.ht := text.h x B.ps} 


B.ht := text.h X B.ps 

图 $-22 定义 盒子 大 小 和 高 度 的 语法 制导 定义 图 5-23 从 图 5-22 构 造 的 翻译 模式 

图 5-23 的 翻译 模式 是 根据 上 述 3 点 要 求 ， 将 图 5-22 中 的 语义 规则 插入 产生 式 而 得 到 的 。 为 
增加 可 读 性 ， 产 生 式 的 每 个 文法 符号 写 在 不 同 的 行 上 ， 而 动作 在 其 右边 给 出 。 所 以 ,把 

S > {Bps:= 10} B {S.At := B.ht} 
写成 

S > { B.ps := 10} 

B {S.h := B.ht} 


注意 ， 置 继承 属性 Bi ps 和 B2.ps 的 动作 刚好 在 产生 式 右 部 B 和 Bs 的 前 面 。 口 
5.5 自 项 向 下 翻译 


在 本 节 中 ， 我 们 将 在 预测 分 析 的 过 程 中 实现 L 属性 定义 。 为 了 明显 地 看 出 动作 和 属性 计算 
的 发 生 硕 序 ， 我 们 利用 翻译 模式 而 不 是 语法 制导 定义 来 进行 说 明 。 另 外 ， 我 们 还 将 消除 左 递 归 
的 算法 扩展 到 带 有 综合 属性 的 翻译 模式 中 。 

5.5.1 从 翻译 模式 中 消除 左 递归 

因为 大 多 数 算 术 运 算 符 是 左 结合 的 ， 所 以 人 们 很 自然 地 用 左 递归 文法 来 表示 算术 表达 式 。 
这 里 ， 我 们 将 扩充 2.4 节 和 4.3 节 消除 左 递归 的 转换 算法 ， 使 之 适用 于 带 有 综合 属性 的 翻译 模式 。 
它 使 5.1 节 和 5.2 节 的 许多 语法 制导 定义 都 可 以 用 预测 分 析 法 来 实现 。 下 面 是 一 个 转换 的 例子 。 


例 5.14 下面 将 图 5-24 的 翻译 模式 转换 成 图 5-25 的 翻译 模式 。 新 的 翻译 模式 产生 图 5-26 中 
表达 式 9-5+2 的 注释 分 析 树 ， 图 中 的 箭头 表明 





E>E,+T 4 Eval := E,.val + T.val } 
了 确定 表达 式 的 值 的 方法 。 E>E,-T { E.val := E,.val — T.val } 
在 图 5-26 中 ; 每 个 数 都 是 由 T 产 生 的 ， T.val E>T { E.val := T.val } 
的 值 就 是 该 数 的 词法 值 num.val。 子 表达 式 9-5 TE aS T poah 
中 的 9 是 由 最 左边 的 了 产生 的 ， 减 号 和 5 是 由 


根 的 右 子 节点 R 产生 的 。 继 承 属性 Ri 的 值 9 图 5-24 ERAEN RAPER 


得 自 T.val， 然后 计算 9-5 并 向 下 将 结果 4 RSP RDA, BOAR ERA ER R> 
-TRP T、R 之 闻 的 如 下 动作 来 完成 的 : 


{ Ri.i:= R.i — T.val } 


用 相似 的 动作 可 以 把 2 加 到 9-5 上 ， 并 在 底层 的 R 节点 上 输出 结果 Ri = 6。 最 终 的 结果 是 根 


E ke FE 


节点 的 Eval 值 ， 用 R 的 综合 属性 s 会 把 最 终 
结果 向 上 复制 到 根 ( 这 一 部 分 没有 在 图 5-26 中 
给 出 )。 o 


对 自 顶 向 下 语法 分 析 ， 我 们 可 以 假设 动作 
是 在 与 之 处 于 同一 位 置 的 符号 被 展开 时 执行 的 。 
例如 ， 图 5-25 中 的 第 二 个 产生 式 中 ， 第 一 个 动 
{Rui := Ri + Tval}( REAR.) 是 在 7 被 
完全 展开 成 终结 符 后 执行 的 ， 第 二 个 动作 
{R.s := Ri.s} 是 在 Ri 被 完全 展开 后 执行 的 。 正 如 
5.4 节 对 L 属 性 定义 的 讨论 ， 符 号 的 继承 属性 必 
须 由 该 符号 前 面 的 动作 来 计算 ， 并 且 产 生 式 左 
部 非 终结 符 的 综合 属性 必须 在 它 所 依赖 的 所 有 
属性 都 计算 出 来 之 后 才能 计算 。 

E 
m 一 Ri=9 


num. val = 9 


num.val = 5 
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- T.val=5 —> Ri=4 


{ Ri := T.val} 
{ E.val := R.s} 


{ Rai : R.i + T.val } 
{ Rs := Ry.s} 


{ RIi:= Ri ~ T.val} 
{ R.s := Ris} 


{ Rs := Ri} 


{ T.val := E.val } 


T + num { T.val := num.val } 





+ T.val=2——» Ri=6 


| 


num. val = 2 e 


图 5-26 表达 式 9-5+2 的 计算 


为 了 使 其 他 左 递归 翻译 模式 适 于 预测 语法 分 析 ， 我 们 将 更 抽象 地 表示 图 5-25 中 属性 Ri 和 


R.s 的 使 用 。 假 如 我 们 有 如 下 的 翻译 模式 : 


A>A Y {Aa := g(h1.a, Y.y)} 
A>xX { Aa := f(X.x) } 





图 5-25 转换 后 的 右 递归 文法 的 翻译 模式 


(5-2) 


每 个 文法 符号 都 有 一 个 综合 属性 ， 用 相应 的 小 写字 母 表示 ， 而 且 f 和 8 是 任意 函数 。 对 于 更 一 
般 的 情况 ， 如 用 串 来 代替 符号 和 和 了 等 ， 我 们 会 在 例 $.15 中 描述 。 
2.4 节 中 消除 左 递归 的 算法 可 以 从 (5-2) 构 造 出 下 面 的 文法 : 


A>XR 
R>YR |e 
考虑 到 相应 的 语义 动作 ， 翻 译 模 式 变 为 : 
A>X { Ri:= f(Xx)} 
R { A.a:= R.s} 
R>Y {R,.i := g(Ri, Y.y)} 


R, { R.s := R,.s} 
R>e { Rs := Ri} 


(5-3) 


(5-4) 
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如 图 5-25 所 示 ， 转 换 后 的 翻译 模式 使 用 R 的 属性 i 和 s。 为 弄 清 为 什么 (5-2) 和 (5-4) 的 结果 
是 一 样 的 ， 我们 考虑 图 5-27 中 两 棵 注释 分 析 树 。 图 5-27a 中 A.a 的 值 是 根据 (5-2) 计 算 的 。 
图 5-27b 中 包含 了 按照 (5-4) 从 上 到 下 对 Ri 的 计算 。 底 部 的 Ri 值 未 加 改变 地 被 作为 Rs 的 值 传 
递 到 上 面 ， 并 作为 根 节点 Aa 的 正确 值 ( 图 5-27b 中 没有 给 出 Rs 的 值 )。 


A.a = g(g(f (Xx), Y1-y), Y2-y) A 
N 一 
A.a = gQ (X.x), Y1.y) R.i = f (Xx) 
N 一 
Y, 
A.a = f(X.x) Ri = gf (Xx), ¥1.y) 
| a“ 
x Y, 
R.i = gE OD, Y1.y), Y2.y) 
€ 
a) b) 


图 5-27 计算 一 个 属性 值 的 两 种 方法 


例 5.15 如果 将 图 5-9 中 的 构造 语法 树 的 语法 制导 定义 转换 成 翻译 模式 ， 那 么 E 的 产生 式 

和 语义 规则 将 变 成 : 

E-E,+T { E.nptr := mknode('+', E,.nptr, T.nptr) } 

E > E, -T { E.nptr := mknode('-', E,.nptr, T.nptr) } 

E~T { E.nptr := T.nptr } 

当 从 该 翻译 模式 中 消除 左 递归 时 ， 非 终结 符 E 对 应 于 (5-2) 中 的 4， 前 面 两 个 产生 式 中 的 
H+ 了 和 -7 对 应 于 了， 第 三 个 产生 式 的 7 对 应 于 X。 转 换 后 的 翻译 模式 如 图 5-28 所 示 。 其 中 
T 的 产生 式 和 语义 动作 类 似 于 图 5-9 中 的 原 





始 定义 。 {  Ri:= T.nptr} 
图 5-29 说 明 怎样 用 图 5-28 的 动作 为 表 { Enpir := R.s } 
达 式 a-4+c 构造 语法 树 。 综 合 属性 标 在 文 R,.i := mknode('+', R.i, T.nptr) } 
法 符号 节点 的 右边 ， 继 承 属 性 标 在 文法 符 R.s := Ris} 
号 节点 的 左边 。 像 例 5.8 那 样 ， 语 法 树 的 叶 
节点 由 产生 式 Tid 和 T>num 的 翻译 动 Rui z mina C=", R.i, T.nptr) } 
作 来 构造 。 在 最 左边 的 节点 Tr， 属性 T.nptr Rs := Ri} 
指向 叶 节 点 a， 该 指针 由 EOTR 的 右 部 R 
的 属性 Ri 来 继承 。 
当 产 生 式 R>-TR, 作用 在 根 的 右 子 节 { T.npir_:= E.nptr } 
AR EW, Ri 指向 节点 a，T.nptr 指向 节 T=>id { T.nptr := mkleaf (id, id.entry) } 
点 4， 将 mknode 作用 在 减 号 和 这 些 指针 上 T > num {T.nptr := mkleaf (num, num.val) } 


即 可 构造 出 对 应 于 a-4 的 节点 。 
最 后 ， 应 用 产生 式 R 一 e Ri 指向 语 
法 树 的 根 。 接 着 ， 这 棵 树 通过 R 节点 的 s 属性 逐 层 返回 (图 $-29 中 没有 给 出 )， 并 最 终 用 
E.nptr 值 返回 结 果 。 口 


图 5-28 转换 后 的 构造 语法 树 的 翻译 模式 
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到 c 的 表 项 


图 5-29 使 用 继承 属性 构造 语法 树 
5.5.2 预测 翻译 器 的 设计 

下 面 的 算法 将 预测 语法 分 析 器 的 构造 进行 推广 ， 使 之 可 以 实现 基于 适合 自 顶 向 下 分 析 的 文 
法 的 翻译 模式 。 

算法 5.2 构造 语法 制导 的 预测 翻译 器 。 

输入 : 一 个 带 有 适 于 预测 分 析 的 基础 文法 的 语法 制导 翻译 模式 。 

语法 制导 翻译 器 的 代码 。 

方法 : 修改 2.4 节 中 的 预测 语法 分 析 器 构造 技术 。 

1. 为 每 个 非 终结 符 4 构造 一 个 函数 ，4 的 每 个 继承 属性 均 对 应 该 函数 的 一 个 形式 参数 ， 其 
返回 值 为 4 的 综合 属性 的 值 ( 可 能 是 一 个 记录 、 一 个 指向 记录 的 指针 或 使 用 传 地 址 参数 传递 机 
制 )。 为 简单 起 见 ， 我们 假设 每 个 非 终 结 符 只 有 一 个 综合 属性 。 同 时 ，A 的 函数 对 出 现在 A 产 
生 式 中 的 每 个 文法 符号 的 每 个 属性 都 有 一 个 局 部 变量 。 

2. 正如 2.4 节 所 讨论 的 ， 非 终结 符 4 的 代码 会 根据 当前 的 输入 决定 使 用 哪个 产生 式 。 

3. 与 每 个 产生 式 有 关 的 代码 执行 如 下 动作 : 从 左 到 右 考 虑 产生 式 右 部 的 记号 、 非 终结 符 及 
语义 动作 。 

i) 对 于 带 有 综合 属性 x 的 记号 X, 把 x 的 值 保 存在 X.x 中 ; 然后 产生 一 个 匹配 和 的 调用 ， 
并 继续 输入 。 

i 对 于 非 终结 符 8， 产生 一 个 右 部 带 有 函数 调用 的 赋值 语句 c: = B (by, ba e, be), 其 
中 bi, bn, +, be EAH B 的 继承 属性 的 变量 ,，c 是 代表 B 的 综合 属性 的 变量 。 


iti) 对 于 每 个 动作 ， 将 其 代码 复制 到 语法 分 析 器 ， 并 把 对 属性 的 引用 改 为 对 相应 变量 的 
引用 。 口 


我 们 将 在 5.7 节 对 算法 5.2 进 行 扩展 ， 以 便 能 实现 任何 L 属 性 定义 ,假设 事先 已 经 构造 好 了 分 
析 树 。 在 5.8 节 中 ， 我 们 将 考虑 几 种 改进 算法 5.2 所 构造 的 翻译 器 的 方法 。 例 如 ， 可 以 消除 形 如 
x := y 的 复制 语句 ， 或 者 用 一 个 变量 保存 若干 属性 值 。 另 外 ， 还 可 以 用 第 10 章 的 方法 来 自动 完 
成 某 些 这 类 改进 。 


例 5.16 图 5-28 中 的 文法 是 LL(1) 文 法 ， 因 而 适合 于 自 顶 向 下 分 析 。 依 据 文法 中 非 终 结 符 


的 属性 ， 我 们 可 以 得 到 函数 E, RAT 的 参数 和 结果 的 如 下 类 型 。 由 于 EMT 没有 继承 属性 ， 
所 以 它们 没有 参数 。 
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function E : 1 syntax_tree_node; 


function R (i: t syntax_tree_node): + syntax_tree_node; 


function T : t syntax_tree_node; 


我 们 将 图 $-28 中 的 两 个 R 产生 式 组 合 在 一 起 ， 以 便 使 翻译 器 变 得 更 小 一 些 ， 新 的 产生 式 用 


addop 代表 + 和 -: 


R — addop 
T { R,.i := mknode(addop.lexeme, R.i, T.nptr) } 5-5 
R, { Rs := RI.s} (5-5) 
R>e { Rs := Ri} 


R 的 代码 基于 图 5-30 的 分 析 过 程 ， 如 果 
超前 扫描 符号 是 addop， 则 使 用 产生 式 R> 
addop TR， 通 过 过 程 match HA addop 之 
后 的 下 一 个 输入 记号 ， 然 后 再 调用 了 和 RR 
的 过 程 ， 否 则 ， 这 一 过 程 将 什么 也 不 做 以 模 
仿 产 生 式 R 一 e 。 

图 5-31 中 R 的 函数 包含 计算 属性 的 代 
码 。 记 号 addop 的 值 lexval 存放 在 addop- 
lexeme 中 ， 如 果 匹 配 addop， 则 调用 函数 T, 
并 用 nprr 保存 其 返回 结果 。 变 量 i 对 应 于 
继承 属性 Ri.i:， 变 量 sl 对 应 于 综合 属性 Ri.s。 
return 语句 正好 在 控制 离开 函数 以 前 返回 s 
的 值 。 类 似 地 可 以 构造 E 和 了 的 函数 。 O 


56 自 底 向 上 计算 继承 属性 


在 本 节 中 ， 我 们 给 出 了 一 种 在 自 底 向 上 
分 析 框 架 中 实现 L 局 性 定义 的 方法 。 该 方法 
可 以 实现 上 一 节 所 考虑 的 所 有 基于 LL(1) 文 
法 的 L 属 性 定义 ， 它 还 能 实现 许多 (但 不 是 所 
有 的 ) 基 于 LR(1) 文 法 的 L 属 性 定义 。 该 方法 
对 于 5.3 节 介绍 的 自 底 向 上 翻译 技术 来 说 ， 
更 具有 一 般 性 。 
5.6.1 期 除 式 入 在 翻译 模式 中 的 动作 





if lookahead = addop then begin 
match (addop); T; R 


end 


else begin /« Ht 2.487 +/ 


end 





图 5-30 产生 式 R 一 addop TRIE 的 语法 分 析 过 程 


function R (i: t syntax_tree_node): 1 syntax_tree_node; 
var nptr, il, sl, s: t syntax_tree_node; 
addoplexeme : char; 
begin 
if lookahead = addop then begin 
A 产生 式 R > addopTR +7 
addoplexeme := 
match (addop); 
nptr := T; 
il := mknode (addoplexeme, i, nptr); 
sl := R(il}, 
s:= sl 
end 
else s := 6 
return s 
end; 


lexval, 


LEAR >e 


图 5-31 语法 树 的 递归 下 降 构造 


在 5.3 节 的 自 底 向 上 翻译 方法 中 ， 我 们 需要 把 所 有 的 翻译 动作 都 放 在 产生 式 右 端 的 末尾 ， 
而 在 5.5 节 中 的 预测 分 析 方法 中 我 们 可 以 在 产生 式 右 部 的 任何 地 方 檬 入 动作。 在 开始 讨论 邵 何 


自 底 向 上 处 理 继承 属性 之 前 ， 我 们 先 介绍 一 一 种 变换 方法 ， 


都 出 现在 产生 式 右 端的 末尾 。 


它 可 以 使 翻译 模式 中 的 所 有 凡人 动作 


这 种 变换 在 基础 文法 中 加 入 新 的 形 如 Me 的 产生 式 ， 其 中 M 称 为 标记 (marker ) 非 终结 
符 。 我 们 将 每 个 散人 动作 用 不 同 的 标记 非 终 结 符 M 来 代替 ， 并 把 该 动作 放 在 此 空 产生 式 的 末 
端 。 例 如 ， 使 用 标记 非 终结 符 M 和 N， 可 以 将 翻译 模式 


E > TR 


R > + T {print('+’)} R | - T {prin(-)} R | € 
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T > num {print(num.va!l)} 
转换 成 


T R 
+TMR|-TNR|e 
num { print(num.val) } 
e {print('+')} 
€ {print('-')} 

两 个 翻译 模式 中 的 文法 接受 相同 的 语言 ， 而 且 ， 在 分 析 树 中 若 用 额外 的 节点 表示 出 动作 ， 
则 可 以 看 出 动作 的 执行 顺序 也 是 一 样 的 。 在 转换 后 的 翻译 模式 中 , 动作 都 在 产生 式 右 端的 末尾 ， 
因此 它们 可 以 在 自 底 向 上 分 析 过 程 中 刚好 在 产生 式 右 部 被 归 约 之 前 执行 。 
5.6.2 分 析 栈 中 的 继承 属性 

自 底 向 上 语法 分 析 器 对 产生 式 4 一 X7 的 归 约 就 是 从 分 析 栈 顶 移 走 X 和 了 并 用 4 来 代替 它 
们 。 假 设 X 有 一 个 综合 属性 Xe， 在 5.3 节 中 我 们 已 经 将 该 属性 与 和 一 起 放 在 分 析 栈 中 了 。 

因为 在 对 了 的 任何 子 树 进行 归 约 前 ，X.s 的 值 已 经 放 在 分 析 栈 中 ， 所 以 该 值 可 以 被 7 继承 。 
也 就 是 说 ， 如 果 继 承 属 性 了 ij 是 由 复制 规则 Yi = X.s 定义 的 ， 那 么 我 们 可 以 在 需要 Yi 的 地 方 使 
用 X.s 的 值 。 正 如 我 们 将 要 看 到 的 ， 在 自 底 向 上 的 语法 分 析 中 ， 复 制 规则 在 继承 属性 的 计算 过 
程 中 起 着 重要 的 作用 。 


例 5.17 如 图 5-32 (改编 自 图 5-7 ) 所 示 ， 使 用 继承 属性 ， 标 识 符 的 类 型 属性 可 以 通过 复 
制 规则 来 传递 。 我 们 首先 分 析 自 底 向 上 语法 分 析 器 在 输入 


zł N> 
二 


real p, q, r D 
上 所 做 的 移动 ， 然 后 说 明 应 用 L 产生 式 时 如 何 r -~ | 
获取 属性 T.type 的 值 。 我 们 想 要 实现 的 翻译 模 : We 
AE: r 
D >T { L.in := T.type } 
L 
T > int { T.type := integer } 
T > real { T.type := real} 
L > { Ly.in := L.in } 
L, , id { addtype (id.entry, L.in) } 
L > id { addtype (id.entry, L.in) } 


如 果 我 们 忽略 上 述 翻 译 模式 中 的 语义 动作 ， 
语法 分 析 器 分 析 图 $-32 的 输入 时 产生 的 移动 顺 
序 如 图 $-33 所 示 。 为 清楚 起 见 ， 我 们 用 相应 的 
文法 符号 代替 栈 状 态 ， 用 实际 的 标识 符 代替 记 
号 id。 

我 们 假设 像 5.3 节 中 那样 ， 分 析 栈 是 由 一 对 
数组 state 和 val 来 实现 的 。 如 果 state[i] 代表 
文法 符号 X， 那 么 val 叫 就 保存 综合 属性 X.s。 
图 5-33 中 给 出 了 state 数组 中 的 内 容 。 注 意 ， 图 
5-33 中 每 次 归 约 工 产生 式 的 右 部 时 ，7 在 栈 中 图 5-33 ẸKA LAR, 
刚好 在 右 部 的 下 面 。 我 们 可 以 利用 这 一 事实 来 了 正好 在 右 部 的 下 面 
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获得 属性 T.type 的 值 。 

图 5-34 中 的 实现 利用 了 这 样 的 事实 : 属性 
T.type 在 val 栈 中 的 位 置 相对 于 栈 顶 是 已 知 的 。 
令 top 和 ntop 分 别 代表 归 约 前 和 归 约 后 栈 顶 项 
的 下 标 。 根 据 定义 Lin 的 复制 规则 ， 我 们 知道 
可 以 用 也 pype HARE Lino 

当 我 们 使 用 产生 式 Lid 时 ，id.entry 在 
val RI, T.type 刚好 在 其 下 面 。 所 以 addtype (val [top], val [top-1}) 等 价 于 addtype (id.entry, 
Ttype)。 类 似 地 ， 由 于 产生 式 LOL, id 的 右 部 有 3 个 符号 ， 所 以 归 约 时 T.type 出 现在 val [top- 
3] 中 。 因 为 我 们 用 栈 中 的 属性 值 T.type 代替 了 Lin, AU Lin 有 关 的 复制 规则 就 可 以 省 略 
掉 。 口 
5.6.3 模拟 继承 属性 的 计算 . 

由 上 面 从 分 析 栈 中 获取 属性 值 的 方法 中 可 以 看 出 ， 必 须 可 以 预测 属性 值 在 栈 中 的 位 置 ， 这 
一 方法 才 行 得 通 。 

例 5.18 下 面 的 语法 制导 定义 就 是 一 个 不 能 预测 位 置 的 例子 : 






val [ntop | := integer 
val |ntop ] := real 

addtype (val [top }, val [top ~ 3]) 
addtype (val {top |, val [top — 1}) 


图 5-34 在 Xin 处 使 用 T.type 的 值 


T > real 






产生 式 语义 规则 
S > aAC C.i := As 
S — bABC C.i := A.s (5-6) 
C >c C.s := g(C.i) 


C 通过 复制 规则 继承 了 综合 属性 4.s。 注 意 ,在 栈 中 4 和 C 之 间 可 能 有 一 个 B 也 可 能 没有 B, 
因此 用 产生 式 Cc 归 约 时 ，C.i 的 值 就 可 能 在 val[top-1] 中 ， 也 可 能 在 val [top-2] 中 ， 但 我 们 
不 能 确定 究竟 是 哪 种 情况 。 

在 图 5-35 中 ， 引 入 一 个 新 的 标记 非 终结 符 M， 它 正好 插 在 (5-6) 中 第 二 个 产生 式 右 部 C 的 前 
面 。 如 果 使 用 产生 式 S>bABMC 进行 分 析 ， 那 么 Ci 可 通过 M.i 和 M.s 间接 地 继承 A.s 的 值 。 
当 使 用 产生 式 M 一 e 归 约 时 ， 复制 规则 M.s := M.i 可 以 保证 M.s = M.i = A.s 正好 出 现在 栈 中 C 
的 子 树 所 对 应 的 符号 串 的 前 面 。 所 以 ,使 用 Coc 时 ，C.i 的 值 就 可 以 在 val[top-1] 中 找到 ， 而 
不 管 使 用 的 是 下 面 的 修改 后 的 (5-6) 中 的 第 一 个 产生 式 还 是 第 二 个 产生 式 。 


产生 式 诸 义 规则 
S > aAC C.i := A.s 
S + bABMC M.i := A.s; C.i := Ms 
C >c C.s := g (C.i) 
M >e M.s := M.i 
S. oS 
bp As BOC b AG B Ms SC 
s i s i: s i 
€ 
a) b) 


图 5-35 通过 标记 M 复制 属性 的 值 
a) 原来 的 产生 式 b) 修改 后 的 依赖 关系 


标记 非 终结 符 也 可 以 用 来 模拟 不 是 复制 规则 的 语义 规则 。 例 如 ， 考 虑 
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产生 式 语义 规则 

S ~ ahC C.i := f (As) (5-7) 
此 时 ， 定 义 C.; 的 规则 不 是 复制 规则 ， 所 以 Ci 的 值 还 没有 在 val 栈 中 。 我 们 仍然 可 以 用 标记 来 
解决 该 问题 ， 比 如 可 以 将 文法 改造 为 : 


产生 式 语义 规则 
S + aANC N.i i= A.s; Ci := N.s (5-8) 
N>e N.s := f (N.i) 


标记 非 终结 符 N 用 复制 规则 继承 属性 As 的 值 ， 其 综合 属性 值 N.s RBA SAs), UR Ci 
用 一 个 复制 规则 来 继承 该 值 。 当 用 Ne 归 约 时 ， 我 们 在 放置 A.s 的 地 方 ( 即 val[top-1 ) 找到 
N. 的 值 。 当 我 们 用 SSaANC 进行 归 约 时 ，C.i 的 值 仍然 可 以 在 valftop-1] 中 找到 ， 因 为 它 就 是 
N.s。 实 际 上 ， 此 时 我 们 并 不 需要 C.i， 我 们 在 把 终结 符号 串 归 约 为 C 时 才 和 需要 它 ， 那 时 Ci 的 
值 已 经 和 NN 一 起 安全 地 存放 在 栈 中 了 。 口 


例 5.19 ”图 5-36 中 使 用 了 3 个 标记 非 终结 符 L， 
M 和 N， 以 保证 在 B 的 子 树 被 归 约 时 ,继承 属性 S>LB 








语义 规则 













B.ps := 也 .了 

B.ps 的 值 出 现在 分 析 栈 中 的 已 知 位 置 。 原 来 的 属 S.ht := B.ht 
性 文法 是 在 图 5-22 给 出 的 ， 它 在 正文 编排 中 的 应 Loe Ls:= 10 
用 已 在 例 5.13 中 解释 过 。 B >B MB, Bups = pes 
ns, AL 进行 初始 化 。 由 于 图 $-36 中 S 的 Bz.ps := Ms 


B.ht := max(B,.ht, B,.ht) 


产生 式 是 5 一 LB， 所 以 B 下 面 的 子 树 被 归 约 时 ， 


工 将 留 在 栈 中 。 继 承 属性 Bps = Ls 的 值 10 通 过 与 “| PeT os 
Le 关联 的 规则 Ls := 10 压 人 分 析 栈 中 。 Ba.ps := Ns 


B.ht := disp(B,.ht, B,.ht) 


BB, M B: 中 标记 M 的 作用 类 似 于 图 $-35 中 
M 的 作用 ， 它 用 来 保证 在 分 析 栈 中 B.ps 的 值 刚好 
在 B: 的 下 面 。 在 产生 式 BB, sub NB. 中 ， 标 记 
N 的 用 法 和 (5-8) 中 的 用 法 相同 。 通 过 复制 规则 - 
Ni := B.ps，N 继 承 了 Bs.ps 所 依赖 的 属性 值 B.ps， 图 5-36 由 复制 规则 设置 所 有 的 继承 属性 
并 通过 规则 N.s ;= shrink (N.i) 综合 出 B2.ps 的 值 。 结 果 当 我 们 归 约 出 B 时 ，B.ps 的 值 总 是 在 产 
生 式 右 部 的 下 面 (其 证 明 留 作 练 习 )。 

实现 图 5-36 中 语法 制导 定义 的 代码 段 如 图 5-37 所 示 。 所 有 的 继承 属性 都 由 图 5-36 中 的 复制 
规则 来 设置 ， 所 以 该 实现 是 通过 跟踪 继承 属性 在 val 栈 中 的 位 置 来 获得 其 属性 值 的 。rop 和 
ntop 的 意义 同 前 ， 分 别 是 妇 约 前 和 妇 约 后 栈 顶 的 下 标 。 口 


B — text B.ht := text.h x B.ps 


ME M.s := M.i 


Ne N.s := shrink(N.i) 








val[ntop] := val {top | 


Loe val[ntop] := 10 

B => B, MB, val [ntop | := max (val |top —2}, val |top }) 
B > B, sub N B, | val(ntop| := disp (valliop —3}, val (top |) 
B — text 


val {ntop | := val[top] x val [top -1] 
val (ntop | := val {top 一 1] 
val [ntop | := shrink (val {top —2]) 


图 5-37 图 5-36 中 语法 制导 定义 的 实现 
如 同 在 (5-6) 的 修改 版 本 和 (5-7) 中 那样 ， 引 入 标记 使 得 在 LR 分 析 期 间 计 算 L 属 性 定义 成 为 可 
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能 。 因 为 每 个 标记 只 有 一 个 产生 式 ， 所 以 加 入 标记 后 的 文法 仍然 是 LL(1) 文 法 。 而 任何 LL(1) 文 
法 也 是 LR(1) 文 法 ， 所 以 将 标记 加 入 LL(1) 文 法 中 不 会 引起 语法 分 析 的 冲突 。 但 是 ， 对 LR(1) 文 
法 却 并 非 如 此 ， 因 为 将 标记 加 入 某 些 LR(1) 文 法 中 会 引起 语法 分 析 的 冲突 。 

下 面 的 算法 是 上 例 思想 的 形式 化 描述 。 


算法 5.3 带 有 继承 属性 的 自 底 向 上 语法 分 析 和 翻译 。 
AN: 基础 文法 是 LL(1) 文 法 的 L 属 性 定义 。 
: 计算 分 析 栈 中 所 有 属性 值 的 语法 分 析 器 。 

na 为 简单 起 见 ， 我 们 假设 每 个 非 终结 符 4 都 有 一 个 继承 属性 A.i， 而 且 每 个 文法 符号 
X 都 有 一 个 综合 属性 Xs. WRX 是 终结 符 ， 则 其 综合 属性 值 就 是 词法 分 析 器 所 返回 的 词法 值 。 
和 前 面 的 例子 一 样 ， 词 法 值 也 出 现在 栈 数组 val 中 。 

对 每 个 产生 式 AX Xn, FA n 个 新 的 标记 非 终 结 符 M1,，…，M,， 并 用 ACM, XM, Xa 
代替 该 产生 式 。 其 中 ， 综 合 属 性 Xs 将 放 在 分 析 栈 val 数组 内 与 名 对 应 的 条 目 中 ， 如 果 有 继 
FJA X).i, 它 也 出 现在 同一 个 数组 中 与 M 对 应 的 条 目 中 。 

在 语法 分 析 时 ， 一 直 保 持 这 样 的 一 个 重要 特征 : 如 果 继 承 属性 A.ii 存在 ， 则 其 值 可 以 在 val 
数组 紧 贴 M 下面 的 地 方 找到 。 由 于 我 们 假设 文法 开始 符号 没有 继承 属性 ， 所 以 此 处 即使 文法 
开始 符号 是 4 时 也 满足 这 一 特征 (但 是 ， 即 使 开始 符号 有 这 样 的 继承 属性 ， 我 们 也 可 以 把 它 放 
在 栈 底 的 下 面 )。 我 们 可 以 通过 对 自 底 向 上 的 分 析 步 数 进行 归纳 来 证 明 这 种 特征 。 并 依靠 这 样 
的 事实 来 完成 证 明 ; 继承 属性 将 和 标记 非 终结 符 Mi; 联 系 在 一 起 ， 属 性 值 多 .i 在 Mi 处 完成 计算 ， 
而 且 该 计算 是 在 归 约 总 之 前 进行 的 。 

接 下 来 ， 考虑 如 何 自 底 向 上 计算 属性 ， 分 为 两 种 情况 。 第 一 种 情况 ， 当 归 约 标记 非 终结 符 
Mj; 时 ， 它 出 现在 产生 式 A>M X1…M,X, 中 ， 从 而 可 以 确定 为 计算 继承 属性 X .i 所 需要 的 那些 
属性 的 位 置 4. 在 val[top—2j +2] 中 ，Xi.i 在 val[top-2j +3] P, X,.s 在 val[top-2j +4] F, Xi 
在 val[top-2j +5] 中 ， 依 次 类 推 。 于 是 ， 我 们 就 可 以 计算 出 % .i， 并 将 其 存放 在 vailtop+1] 中 ， 
归 约 后 它 成 为 新 的 栈 顶 。 注 意 此 时 要 求 是 LL(1) 文 法 ， 否 则 就 不 能 断定 € 应 归 约 为 哪 一 个 非 终 
结 符 ， 因 而 也 就 无 从 知道 该 执行 什么 语义 动作 以 及 判断 所 需 属性 的 位 置 。 关 于 LL(1) 文 法 加 上 
标记 后 仍然 是 LR(1) 文 法 的 证 明 留 作 练 习 。 

第 二 种 情况 是 归 约 非 标 记 符号 ， 壁 如 用 产生 式 4 MX MX 进行 归 约 。 在 这 种 情况 下 ， 
我 们 只 需要 计算 综合 属性 4.*， 因 为 A.i 已 经 被 计算 出 来 了 ,而且 放 在 栈 中 4 要 插入 的 位 置 之 下 。 
很 明显 ， 进 行 归 约 时 ， 计 算 As 所 需要 的 其 他 属性 也 都 在 栈 中 的 已 知 位 置 ， 即 和 (1 志 j 志 n) 所 在 
的 位 置 。 

下 面 的 简化 可 以 减少 标记 的 个 数 ， 其 中 第 二 条 还 可 以 避免 左 递归 文法 中 的 语法 分 析 冲 突 ; 

1. 如 果 总 没有 继承 属性 ， 我 们 就 不 需 使 用 标记 M; 。 当 然 ， 如 果 省 略 了 Mi ， 属 性 在 栈 中 的 

预期 位 置 就 会 改变 , 但 是 语法 分 析 器 可 以 很 容易 地 适应 这 种 变化 。 

2. WR Xi.i 存在 ， 但 它 是 由 复制 规则 XL.i := 4.i 计算 的 ， 那么 我 们 可 以 省 略 Mo KIRN 
知道 4.i 存放 在 栈 中 紧 挨 X 下面 的 地 方 ， 因 此 该 值 也 可 同时 作为 Xi.i 的 值 。 口 


5.6.4 用 综合 属性 代替 继承 属性 
有 时 我 们 可 以 通过 改变 基础 文法 来 避免 使 用 继承 属性 。 例 如 ， 在 Pascal 中 ， 声 明 语句 由 标 


O 虽然 在 X SAA M 可 以 简化 标记 非 终结 符 的 讨论 ， 但 不 幸 的 是 ， 它 共有 副作用 ， 即 可 能 将 语法 分 析 冲 
突 引 入 左 递归 文法 。 参 见 练习 5.21。 正 如 下 面 要 说 明 的 ，Mi 可 以 被 删除 。 
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识 符 表 加 上 类 型 组 成 ， 如 m，n: integer, 该 声明 可 以 用 包含 下 列 产 生 式 的 文法 产生 : 

D-~L:T 

T > integer | char 

L-L, id |id 

因为 标识 符 是 由 工 产 生 的 ， 但 类 型 却 不 在 工 的 子 树 中 ， 因 此 仅仅 使 用 综合 属性 不 能 把 类 型 和 
标识 符 联系 在 一 起 。 事 实 上 ， 如 果 非 终结 符 工 在 第 一 个 产生 式 中 从 其 右边 的 T 中 继承 类 型 的 话 ， 
我 们 将 得 到 一 个 不 是 L 属 性 的 语法 制导 定义 ， 从 而 基于 它 的 翻译 也 就 不 能 在 语法 分 析 期 间 进 行 。 

这 个 问题 可 以 通过 重新 构造 文法 来 解决 (将 类 型 作为 标识 符 表 的 最 后 一 个 元 素 ): 

D > idL 

L= ,idL |:T 

T — integer | char 
现在 ， 类 型 信息 可 以 作为 工 的 综合 属性 Ltrype， 当 标识 符 由 工 产 生 时 ， 其 类 型 就 能 被 填 进 符号 表 中 。 
5.6.5 一 个 难 计算 的 语法 制导 定义 

在 自 底 向 上 语法 分 析 过 程 中 计算 继承 属性 
的 算法 5.3 可 以 扩展 到 某 些 (但 不 是 全 部 ) LR se 
文法 上 。 图 5-38 中 的 L 属 性 定义 基于 一 个 简单 的 
LR(1) 文 法 ,但 它 不 能 在 LR 语法 分 析 期 间 用 算 、 、 、 
法 5.3 进 行 计算 。L 一 e 中 的 非 终结 符 L 继 承 由 9。 OO TORRONE TEE 
产生 的 1 的 个 数 。 但 由 于 自 底 向 上 语法 分 析 器 首先 使 用 产生 式 L->€ 进行 归 约 ， 所 以 此 时 翻译 
器 不 可 能 知道 输入 中 1 的 个 数 。 


5.7 递归 计算 


可 以 用 5.5 节 中 的 预测 翻译 技术 在 语法 制导 定义 的 基础 上 构造 递归 函数 ， 使 其 可 以 在 遍历 
分 析 树 时 计算 出 属性 值 。 这 种 递归 函数 使 我 们 可 以 实现 一 些 不 能 与 分 析 同 时 实现 的 语法 制导 定 
义 。 在 本 节 中 ， 我 们 将 每 个 非 终结 符 都 与 单个 翻译 函数 联系 起 来 。 此 函数 以 某 种 顺序 访问 非 终 
结 符 节点 的 各 子 节点 ， 这 种 顺序 是 由 该 非 终结 符 节 点 对 应 的 产生 式 决定 的 ， 而 且 不 一 定 是 从 左 
到 右 的 。5.10 节 将 描述 如 何 通过 将 非 终 结 符 和 多 个 过 程 联系 起 来 ， 以 达到 多 于 一 遍 扫描 所 得 到 
的 翻译 效果 。 
5.7.1 从 左 到 右 遍 历 

在 算法 5.2 中 ， 通 过 为 每 个 非 终结 符 构造 一 个 递归 函数 ， 可 以 分 析 和 翻译 任何 基于 LL(1) 文 
法 的 L 属 性 定义 。 同 样 ， 在 已 构造 好 的 分 析 树 上 ， 在 非 终结 符 节点 上 调用 类 似 的 递归 函数 ， 也 
可 以 实现 所 有 的 L 属 性 语法 制导 定义 。 通 过 节点 的 产生 式 ， 这 种 函数 可 以 确定 其 子 节点 是 什么 ， 
进而 知道 在 这 些 子 节点 上 应 调用 什么 函数 。 非 终结 符 4 对 应 的 函数 以 分 析 树 上 的 A 节点 及 其 继 
承 属 性 值 作为 参数 ， 并 返回 其 综合 属性 值 。 

除 第 2 步 以 外 ， 构 造 的 细节 与 算法 5.2 相 同 ， 只 是 算法 5.2 中 非 终结 符 的 函数 是 根据 当前 的 输 
人 符号 来 决定 使 用 哪个 产生 式 的 ， 而 此 处 函数 是 用 case 语 句 来 确定 节点 所 用 的 产生 式 的 。 我 们 
用 一 个 例子 来 说 明 这 种 方法 。 


例 5.20 考虑 图 5$-22 中 确定 公式 大 小 和 高 度 的 语法 制导 定义 。 非 终结 符 B 有 一 个 继承 属性 
ps 和 一 个 综合 属性 hy。 用 上 述 修改 后 的 算法 5.2 为 B 构造 出 的 函数 如 图 5-39 所 示 。 






语义 规则 
L.count := 0 

L,.count := L.count + | 
print (L.count) 






Ww 
nn 
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函数 B 以 节点 n 和 节点 n 处 B.ps 的 值 作 为 参 
数 ， 并 返回 节点 n 处 Baht 的 值 。 该 函数 用 case 语 名 
来 区 分 各 种 8 产生 式 。 与 每 个 产生 式 相 应 的 代码 用 
来 模拟 与 该 产生 式 相关 的 语义 规则 ， 而 且 这 些 规则 
的 使 用 顺序 必须 满足 : 非 终结 符 的 继承 属性 必须 在 
调用 该 非 终结 符 的 函数 之 前 计算 出 来 。 

在 对 应 于 产生 式 B>B sub B 的 代码 中 ， 变 量 
ps, ps; Mps: 用 来 保存 继承 属性 B.ps, Bips 和 
B2.ps 的 值 。 同样 地 ，ht，ht 和 hn 用 来 保存 综合 
性 B.ht，Bi.ht 和 B2.ht 的 值 。 我 们 用 函数 child(m， 
站 来 表示 节点 m 的 第 i 个子 节点 。 因 为 BEDAN 
的 第 3 个 子 节点 的 标记 ， 所 以 Bz.ht 的 值 由 函数 调用 
B (child (n，3)，ps2) 来 确定 。 口 


5.7.2 其 他 遍历 方法 

一 县 获得 一 棵 清楚 的 分 析 树 ， 我 们 就 可 以 按 任 
意 顺 序 访 问 一 个 节点 的 各 子 节点 。 考 虑 例 5.21 中 非 L 
属性 定义 的 例子 ， 在 该 定义 所 表示 的 翻译 中 ， 一 个 





function B(n, ps); 
var psl, ps2, htl, ht2; 
begin 
case production at node n of 
'B—B,B,': 


psi := ps; 
htl := B(child(n, 1), psi); 
ps2 := ps; 
ht2 := B(child(n, 2), ps2); 
return max (hti, ht2); 

'B > B, sub B,’: 


psl := ps; 
ht! := B (child (n, 1), ps1), 
ps2 := shrink (ps); 
ht2 := B (child ín, 3), ps2), 
return disp (htl, ht2); 
"B ~ text’: 
return ps X text. h; 
default: 
error 
end 


end; 
图 5-39 图 5-22 中 非 终结 符 B 的 函数 





产生 式 对 应 节点 的 各 子 节点 要 求 按 从 左 到 右 的 顺序 访问 各 子 节点 ， 另 一 个 产生 式 对 应 节点 的 子 
节点 则 要 求 从 右 到 左 地 访问 。 

这 个 抽象 的 例子 将 说 明 在 计算 分 析 树 节点 的 属性 值 时 ， 使 用 相互 递归 函数 可 以 获得 强 有 力 
的 效果 。 此 时 ， 示 数 不 必 依 赖 于 分 析 树 节点 的 建立 顺序 ， 而 所 要 考虑 的 主要 问题 是 : 节点 继承 
属性 的 值 应 该 在 第 一 次 访问 该 节点 之 前 计算 出 来 ; 而 节点 综合 属性 的 值 应 该 在 最 后 一 次 离开 该 
节点 之 前 计算 出 来 。 


例 5.21 图 5-40 中 的 每 一 个 非 终 结 符 都 有 一 个 继承 属性 i 和 一 个 综合 属性 s。 图 5-40 还 给 出 
了 两 个 产生 式 的 依赖 图 。 与 产生 式 4 一 LM 对 应 的 规则 建立 了 从 左 到 右 的 依赖 ， 而 与 产生 式 
A 一 QR 对 应 的 规则 建立 了 从 右 到 左 的 依赖 。 


语义 规则 





i A 8S 


i L s i M i Q sS i R s 
图 5-40 非 终结 符 4 的 产生 式 和 语义 规则 
非 终结 符 A 的 函数 如 图 $-41 所 示 : RIE L, M, OA R 的 函数 也 可 被 建立 。 图 5-41 中 
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的 变量 是 由 非 终 结 符 及 其 属性 来 命名 的 ， 如 和 4s 分 别 是 与 Li A Ls 对 应 的 变量 。 

与 产生 式 A 一 LM 对 应 的 代码 的 构造 方法 同 例 5.20， 即 首先 计算 L 的 继承 属性 ， 然 后 调用 
L 的 函数 计算 其 综合 属性 ， 再 对 M 进行 类 似 的 处 理 。 而 与 4 一 CR 对 应 的 代码 则 先 访问 R 的 子 
树 ， 然 后 再 访问 8 的 子 树 。 除 此 以 外 ， 两 个 产生 式 的 其 他 代码 几乎 相同 。 口 


-5.8 编译 时 属性 值 的 空间 分 配 


本 节 将 讨论 编译 时 属性 值 的 空间 分 配 。 因 为 我 们 要 用 到 分 析 树 依赖 图 的 信息 ， 所 以 本 节 的 方 
法 适合 于 用 依赖 图 来 确定 计算 顺序 的 情况 。 


function A(n, ai): 


下 一 节 我 们 将 考虑 一 种 能 预知 计算 顺序 的 begin | 
情况 ， 那 样 的 话 ， 在 构造 编译 器 的 时 候 ， 和 47 
我 们 可 以 一 次 性 地 确定 所 有 属性 的 空间 。 li := Mai); 

我 们 给 属性 定义 一 个 生存 期 的 概念 ， i i7 Eten. D), 10; 
它 可 以 以 属性 的 深度 优先 计算 顺序 为 基础 。 ms = M (child(n, 2), mi) 
属性 的 生存 期 在 它 第 一 次 被 计算 时 开始 ， Tamgo 
在 所 有 依赖 它 的 属性 都 被 计算 完 之 后 结束 。 的 
为 节省 空间 ， 我 们 可 以 只 在 属性 的 生存 期 rs := R (child (n, 2), ri); 
内 才 为 其 分 配 空间 。 i := qs); 

、 、 、 qs := Q(child(n, 1), qi); 

为 强调 本 节 的 技术 可 以 用 于 任何 计算 return / (qs): 

顺序 中 ， 我 们 考虑 下 面 的 非 L 属 性 语法 制 default: 


FEX, 它 的 作用 是 在 声明 语句 中 将 类 型 end error 
信息 传递 给 标识 符 。 





例 5.22 图 5-42 的 语法 制导 定义 是 图 5-4 图 5-41 图 5-40 的 依赖 关系 决定 了 于 节点 
的 扩展 ， 它 可 以 包含 如 下 形式 的 声明 语句 : 被 访问 的 顺序 

real c[12]{31]; (5-9) 

int x[3], y[5]; (5-10) 


(5-10) 的 分 析 树 如 图 5-43a 中 的 虚线 所 示 。 
节点 上 的 数字 将 在 下 个 例子 中 讨论 。 同 例 5.3， 
L 将 继承 从 了 获得 的 类 型 信息 ， 并 将 该 信息 向 












D-TL L.in := T.type 


T — int T.type := integer 
下 传递 给 声明 语句 中 的 标识 符 。 从 T.type 到 T > real bape .= D 
Lin 的 边 表明 属性 Lin 依赖 于 属性 T.types L~L,,! Ly.in := L.in 
5-42 中 的 语法 制导 定义 不 是 L 属性 定义 ， 这 是 Lin := L.in 
因为 Lin 依赖 于 num.val， 而 在 产生 式 7 一 Lol Lin := L.in 


T[num] "F, num #1 WA. 口 


5.8.1 在 编译 时 为 属性 分 配 空间 
假设 我 们 用 一 系列 寄存 器 来 保存 属性 的 值 。 图 5-42 在 声明 语句 中 将 类 型 信息 传递 给 标识 符 
为 方便 起 见 ， 我 们 假设 每 个 寄存 器 都 可 以 保存 任何 属性 值 。 如 果 属性 代表 不 同 的 类 型 ， 我 们 就 


将 占用 相同 存储 空间 的 属性 分 为 一 组 ， 然 后 分 开 考 虑 每 个 组 。 我 们 将 依据 属性 生存 期 的 信息 来 
确定 寄存 器 的 使 用 。 


l — 1, [ num ) 


I > id 


Tin := array (num.val, lin) 


addtype (id.entry, Lin) 
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例 5.23 ”假设 我 们 按 依赖 图 $-43” 中 各 节点 上 的 数字 顺序 来 计算 属性 ， 各 节点 的 生存 期 从 
第 一 次 计算 其 属性 开始 ， 到 最 后 一 次 使 用 其 属性 结束 。 例 如 ,在 计算 节点 2 时 ， 节 点 1 的 生存 期 
将 会 结束 ， 这 是 因为 节点 2 是 依赖 于 节点 1 的 惟一 节点 。 同 样 ， 节 点 2 的 生存 期 将 在 计算 节点 6 时 
结束 。 o 





b) 


图 5-43 确定 属性 值 的 生存 期 
a) 一 个 语法 树 的 依赖 图 b) a) 的 节点 计算 顺序 
图 5-44 给 出 了 一 种 使 用 尽 可 能 少 


、 ， for m, m , °°, mw 中 的 每 个 节点 m do begin 
的 寄存 器 来 计算 属性 值 的 方法 。 我 们 for 每 个 生存 期 在 计算 m 时 结束 的 节点 n do 


按 节 点 的 计算 顺序 依次 考虑 分 析 树 依 cx mion Maa hen b 
> i i TRAPP then begin 
MAD 中 的 各 节点 。 初 始 时 ， 我 们 有 清除 的 标记 
一 个 寄存 器 池 r, rn, o WREE 计算 m， 并 将 其 保存 到 寄存 器 + 中 : 
b 是 由 语义 规则 5b:=f(c1， c, e, ce) aa 将 标记 寄存 器 返回 到 寄存 器 池 
定义 的 ， BRA ci, c2, 75 Ck 中 某 些 else /* 没有 寄存 器 打上 标记 */ 
属性 的 生存 期 可 能 会 随 着 对 b 的 计算 计算 让， 并 将 其 保存 到 寄存 器 池 中 的 某 个 寄存 器 中 ; 
而 结束 ， 于 是 ， 计 算 完 b 以 后 ,保存 /使 用 属性 值 m 的 动作 可 以 搬 在 这 里 */ 


5 y if m 经 结 en 
这 些 属性 的 寄存 器 就 可 以 被 释放 。 尽 f Ad Se ine cat 
可 能 把 属性 值 5 保存 在 某 个 被 释放 的 
寄存 器 中 。 
在 计算 依赖 图 5-43 中 各 属性 值 图 5-44 为 属性 值 分 配 寄存 器 
时 ， 寄 存 器 的 使 用 情况 如 图 5-45 所 示 。 一 开始 先 计算 节点 1， 并 将 结果 保存 到 寄存 器 m 中 。 节 





8 ——» 9 
ri ri r2 r3 r2 ry ry rz ry 


图 5-45 用 于 保存 图 5-43 中 属性 值 的 寄存 器 
O 图 5-43 中 的 依赖 图 没有 给 出 与 语义 动作 addrype(id.entry, Lin) 相对 应 的 节点 ， 这 是 因为 没有 给 虚 属 性 分 配 


空间 。 但 请 注意 ， 直 到 Lin 的 值 可 用 时 才能 计算 该 语义 规则 。 确 定 该 事实 的 算法 必须 工作 在 包含 该 语义 规 
则 所 对 应 的 节点 的 依赖 图 上 。 
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点 1 的 生存 期 在 计算 节点 2 时 结束 ， 所 以 节点 2 的 计算 结果 将 保存 在 寄存 器 rm 中 。 由 于 节点 6 需要 
节点 2 的 值 ， 所 以 需 从 寄存 器 池 中 为 节点 3 分 配 一 个 新 的 寄存 器 ， 即 rn. 
5.8.2 避免 复制 

通过 将 复制 规则 看 成 一 种 特殊 情况 ,我 们 可 以 改进 图 5-44 的 算法 。 复 制 规则 是 形 如 b: = c 
的 规则 ， 所 以 如 果 c 的 值 在 寄存 器 + 中 ， 那 么 b 的 值 也 就 出 现在 寄存 器 > 中 。 复 制 规则 所 定义 
的 属性 编号 可 能 非常 多 ， 所 以 我 们 想 要 避免 显 式 复制 。 

一 组 具有 相同 属性 值 的 节点 形成 一 个 等 价 类 。 我 们 可 以 向 下 面 这 样 来 修改 图 5-44 的 算法 ， 
以 便 将 一 个 等 价 类 的 属性 值 保存 在 一 个 寄存 器 中 。 考 虑 节点 m 时 ， 我 们 首先 检查 它 是 否 是 由 
复制 规则 定义 的 ， 如 果 是 ， 其 属性 值 就 必定 已 经 保存 在 寄存 器 中 了 ， 则 将 m 加 入 到 相应 的 等 
价 类 中 。 此 外 ， 对 于 寄存 器 的 释放 ， 需 等 到 相应 等 价 类 中 所 有 节点 的 生存 期 都 结束 之 后 ， 该 寄 
存 器 才能 返回 寄存 器 池 。 


例 5.24 图 5-43 的 依赖 图 可 以 重 画 为 图 5-46， 其 中 加 等 号 的 节点 表示 其 属性 值 是 由 复制 规 
则 定义 的 。 根 据 图 5-42 的 语法 制导 定义 ， 我 们 发 现 由 节点 1 所 确定 的 类 型 信息 被 复制 到 标识 符 
列表 中 的 每 一 个 元 素 上 ， 这 就 导致 在 图 5-43 中 节点 2, 3, 6 和 7 的 属性 值 都 是 节点 1 的 复制 。 


| —> =2 ——» =3 4 — 5 =6 —» =7 8 —> 9 
ry, ry ri ry ry ry ri r2 ri 


图 5-46 考虑 复制 规则 的 寄存 器 分 配 图 


在 图 5-46 中 ， 因 为 节点 2 和 节点 3 都 是 节点 1 的 复制 ， 所 以 它们 的 值 都 取 自 于 寄存 器 ro 节 
点 3 的 生存 期 在 计算 节点 5 时 结束 ， 但 是 由 于 等 价 类 中 节点 2 的 生存 期 还 没有 结束 ， 所 以 保存 节 
点 3 的 值 的 寄存 器 x 就 不 能 返回 到 寄存 器 池 。 

下 面 的 代码 说 明 编译 器 如 何 对 例 5.22 中 的 声明 (5-10) 进 行 处 理 : 


rı := integer; /* 计算 节点 1，2，3，6，7 #/ 
ri := 5, /* 计算 节点 4 #/ 

ry := array (ra, r1); /* y 的 类 型 ay 

addtype(y, rı); 

r= 3, /A* 计算 节点 8 */ 

ry := array(r2, ri); /* x 的 类 型 %/ 


addtype(x, r2); 


在 上 面 的 代码 中 ，x My 是 指向 符号 表 中 x Ay 表 项 的 指针 。 适 当 的 时 候 必须 调用 过 程 
addtype 以 便 将 x 和 y 的 类 型 信息 添加 到 相应 的 符号 表 表 项 中 。 口 


5.9 编译 器 构造 时 的 空间 分 配 


尽管 在 一 次 遍历 中 有 可 能 将 全 部 属性 值 保存 在 一 个 栈 中 ， 但 有 的 时 候 用 多 个 栈 可 以 避免 复 
制 。 通 常 ， 如 果 属 性 间 的 依赖 关系 使 得 属性 值 不 便于 放 在 栈 中 ， 那 么 可 以 将 属性 值 直接 保存 在 
语法 树 节点 上 。 

我 们 已 经 在 5.3 节 和 5.6 节 学 习 了 如 何在 自 底 向 上 语法 分 析 中 用 栈 来 保存 属性 值 。 同 时 ， 在 
递归 下 降 语法 分 析 器 中 栈 还 可 以 隐 式 地 用 来 保存 过 程 调用 的 断 点 ， 这 个 问题 将 在 第 7 章 讨论 。 

为 节省 空间 ， 栈 可 以 和 其 他 技术 相 结 合 。 第 2 章 翻译 模式 中 广泛 使 用 的 打印 动作 尽 可 能 将 
字符 串 类 型 的 属性 值 写 到 一 个 输出 文件 中 。 构 造 5.2 节 的 语法 树 时 ， 我 们 只 传递 指向 节点 的 指 
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针 ， 而 不 是 整 棵 子 树 。 通 常 ， 传 递 指向 对 象 的 指针 而 不 是 直接 传递 对 象 可 以 节省 空间 。 例 5.27 
和 例 5.28 就 应 用 了 这 些 技术 。 
5.9.1 从 文法 中 预知 生存 期 

如 果 属 性 的 计算 顺序 是 通过 对 分 析 树 的 特殊 遍历 获得 的 ， 那 么 我 们 就 可 以 在 编译 器 构造 时 
预知 属性 的 生存 期 。 例 如 ， 像 5.4 节 中 那样 ， 假 设 我 们 在 深度 优先 遍历 过 程 中 是 从 左 到 右 访问 
子 节点 的 。 在 产生 式 4 一 BC 对 应 的 节点 开始 遍历 时 ，B 子 树 先 被 遍历 ， 然 后 遍历 C 子 树 ， 最 
后 遍历 根 节 点 A4。 因 为 4 的 父 节 点 不 能 引用 B、C 节点 的 属性 ， 所 以 当 遍 历 到 4A 时, BACH 
生存 期 就 结束 了 。 注 意 ， 上 述 结论 基于 产生 式 4 一 BC 以 及 非 终结 符 节点 的 访问 顺序 。 在 B 和 
C 对 应 的 节点 处 我 们 不 需要 知道 它们 的 子 树 。 

对 于 任何 计算 顺序 ， 如 果 属 性 c 的 生存 期 包含 在 属性 的 生存 期 中 ， 那 么 栈 中 c 的 值 可 以 
在 b HEE, KEK b 和 c 不 必 都 是 同一 个 非 终结 符 的 属性 。 对 于 产生 式 4 一 BC， 我 们 可 以 在 
深度 优先 遍历 中 按照 如 下 方法 来 使 用 栈 。 

首先 从 其 继承 属性 已 在 栈 中 的 节点 4 开始 ， 然 后 计算 B 的 继承 属性 值 并 将 其 压 人 栈 中 。 
oR B 的 子 树 时 ， 这 些 值 仍 留 在 栈 中 。 从 8B 的 子 树 返 回 时 ，B 的 综合 属性 值 压 在 这 些 值 的 上 
面 。 对 C 重复 上 述 过程 ， 亦 即 压 和 其 继承 属性 ， 遍 历 其 子 树 ， 然 后 将 返回 的 综合 属性 压 人 栈 
顶 。 如 果 将 X 的 继承 属性 和 综合 属性 分 别 写成 (XD 和 S(X)， 那 么 此 时 栈 中 包含 : 

KA), (B), S(B), (C), S(C) (5-11) 
计算 4 的 综合 属性 所 需要 的 所 有 属性 值 现在 都 已 经 在 栈 中 了 ， 所 以 我 们 可 以 返回 到 4 ， 相 应 的 
RES: 

KA), S(A) 


注意 ,文法 符号 的 继承 属性 和 综合 属性 的 个 数 是 固定 的 (假设 尺寸 也 是 固定 的 )， 所 以 ， 
324| 上述 过 程 中 的 每 一 步 我 们 都 知道 菜 个 属性 离 栈 顶 有 多 远 。 


例 5.25 ”假设 图 5-22 的 排版 翻译 将 属性 值 保存 在 上 面 所 讨论 的 栈 中 。 对 于 产生 式 BBB, 
从 8 节点 开始 遍历 ， 栈 项 为 B.ps。 访 问 每 个 节点 之 前 和 之 后 栈 的 内 容 如 图 5-47 所 示 。 同 往常 一 
样 ， 栈 是 向 下 增长 的 。 


B.ps [B-ps| 
B 


r. B, Gi e... 
oa Bs 
ips 

了 


图 5-47 遍历 节点 之 前 和 之 后 栈 的 内 容 


注意 ,刚好 在 B 节点 第 一 次 被 访问 之 前 ， 其 ps 属性 位 于 栈 项 。 刚 好 在 最 后 一 次 访问 之 后 ， 
即 遍历 从 B 节点 向 上 移 时 ,其 ht 属性 位 于 栈 顶 ，ps 属性 位 于 次 栈 项 。 口 


如 果 属 性 2 是 由 复制 规则 b := c 定义 的 ， 而 且 c 的 值 位 于 属性 值 栈 的 栈 顶 ， 那 么 可 能 没有 
必要 将 c 的 复制 压 人 栈 中。 另外 ， 姐 果 使 用 多 个 栈 来 保存 属性 的 值 ， 我 们 就 有 更 多 的 机 会 消除 





语法 制导 翻译 o ëY MB 


复制 规则 。 在 下 面 的 例子 中 ， 我 们 将 综合 属性 和 继承 属性 分 成 两 个 栈 存放 ， 与 例 5.25 相 比 ， 这 
种 方法 可 以 消除 更 多 的 复制 规则 。 


例 5.26 对 图 5-22 的 语法 制导 定义 ,假设 我 们 用 分 开 的 两 个 栈 分 别 保存 继承 属性 ps MER 
合 属性 ht。 我们 将 对 这 两 个 栈 进行 维护 ， 以 保证 在 B 第 一 次 被 访问 之 前 以 及 最 后 一 次 被 访问 
之 后 ，B.ps 都 处 于 ps 栈 的 栈 顶 ， 同 时 保证 在 B 刚好 被 访问 之 后 B.ht 位 于 ht 栈 的 栈 顶 。 

把 栈 分 开 ， 我 们 就 可 以 利用 和 产生 式 8 一 B1B, 相 联系 的 两 个 复制 规则 Bi.ps := B.ps 和 Bz.ps := 
B.ps。 如 图 5-48 所 示 ， 因 为 B.ps 的 值 已 处 于 栈 顶 ， 所 以 没 必 要 将 Bi.ps FEAR. 


s 
Eps] P> 
I 


图 5-48 用 不 同 的 栈 存 放 属 性 ps Al ht 


基于 图 $-22 语 法 制导 定义 的 一 个 翻译 模式 如 
图 5-49 所 示 ， 其 中 push(v, s) 操作 把 值 vy EARR 
s, popls) REMI s 中 弹出 一 个 值 ，top(s) 表示 







S 一 { push(10, ps) } 
B 






B >B, 















RE s 的 栈 顶 元 素 。 口 B, { h2:= top(ht); pop (ht); 
hl := top (ht); pop (ht); 
下 面 的 例子 中 ， 我 们 将 属性 值 栈 的 使 用 同 push (max (h1, A2), ht} 
输出 代码 的 动作 结合 起 来 。 B = 8, 
: 、 sub { push( shrink(top(ps)), ps) } 
例 5.27 这 里 我 们 考虑 一 种 描述 中 间 代 码 B, { pop(ps); 
生成 的 语法 制导 定义 实现 技术 。 如 果 E 为 假 ， ph pe pop An 
那么 布尔 表达 式 “E and F” 的 值 就 为 假 。 在 C push Cdisp(h 1 A2), ht) } 
语言 中 ， 如 果 E 为 假 则 不 必 计算 子 表达 式 FA B = text { push(text.h X top(ps), ht) } 





值 。8.4 节 将 讨论 这 种 布尔 表达 式 的 计算 方法 。 . 
图 5-50 是 布尔 表达 式 的 语法 制导 定义 。 其 中 S49 维护 ps FRAN he BREE 
布尔 表达 式 是 用 标识 符 和 and 运算 符 构造 的 。 每 个 表达 式 E 有 两 个 继承 属性 Erue 和 E false, 

它们 是 两 个 标号 ,分 别 表示 EX true 或 false 时 程序 控制 要 跳 转 到 的 地 方 。 


产生 式 语义 规则 










E > E, andE, E, true := newlabel 

E,.false := E. false 

Ey.true := E.true 

E,.false := E.false 

E.code := E,.code || gen(‘label’ E, .true) || E,.code 
E > id E.code := gen('if' id.place ‘goto’ E.true) | 


gen ('goto' E. false) 
图 5-50 布尔 表达 式 的 短路 计算 法 


对 于 ESE, and E;， 如 果 El 为 false， 那 么 控制 流 就 转移 到 继承 标号 E false; # E X true, 
则 将 控制 流转 移 到 计算 E; 的 代码 。 函 数 newlabel 产生 的 标号 标记 了 E 代码 的 开始 ，gen 用 来 
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产生 单条 指令 。 图 5-50 和 中 间 代 码 生 成 的 


{ Ei.true := newlabel; 





相关 性 的 进一步 讨论 请 参见 8.4 节 。 E false := E.false } 
图 5-50 中 的 语法 制导 定义 是 L 属 性 定 E, oabet 
义 ， 因 此 我 们 可 以 为 它 构 造 一 个 翻译 模式 。 eee Ee 
图 5-51 的 翻译 模式 用 过 程 emit 来 产生 并 输 Es.false := E.false } 
出 指令 代码 ， 指 令 编号 逐次 增加 。 正 如 5.4 E 
节 所 讨论 的 ， 图 中 还 给 出 了 设置 继承 属性 和 
值 的 动作 ， 并 被 插 在 合适 的 文法 符号 之 前 。 
图 5-52 是 更 进一步 的 翻译 模式 ， 它 用 两 图 5-51 ”布尔 表达 式 的 代码 生成 
个 不 同 的 栈 分 别 保存 继承 属性 E.true 和 
E. false 的 值 。 像 例 5.26 中 那样 ， 复制 规则 E- { push(newlabel, true) } 
对 栈 没 有 影响 。 为 实现 规则 Ei.true: = td { emit label top (true )); 
newlable ， 在 访问 E: 之 前 将 一 个 新 的 标号 pop (true) } 
FEA true 栈 。 该 标号 的 生存 期 在 动作 E, 
emit(‘label top(true)) ( Semit (‘label’E,.true) Eid = { emit( if’ id.place ‘goto’ top (true)); 
对 应 的 动作 ) 之 后 结束 ， 因 此 在 该 动作 之 emit goto’ op alse») } 





后 要 对 true 栈 执行 一 次 Pop 操作。 在 本 例 中 
Joaise 栈 没有 变化 ， 但 是 当 布尔 表达 式 中 除 
了 and 运算 符 之 外 还 允许 or 运算 符 时 ， 它 就 会 发 生变 化 。 口 
5.9.2 不 相 重大 的 生存 期 

单个 寄存 器 是 栈 的 特例 。 如 果 每 个 push 操 作 之 后 都 跟随 一 个 pop 操 作 的 话 ， 那 么 任 一 时 刻 
栈 中 至 多 只 有 一 个 元 素 。 在 这 种 情况 下 ,我 们 可 以 用 一 个 寄存 器 来 代替 栈 。 根 据 生存 期 的 定义 ， 
如 有 果 两 个 属性 的 生存 期 不 相 重 委 ， 那 么 它们 的 值 就 可 以 保存 在 同一 个 寄存 器 中 。 


例 5.28 图 5-53 的 语法 制导 定义 用 来 为 类 似 于 列表 的 表达 式 构造 语法 树 ， 这 种 表达 式 中 的 
各 运算 符 优先 级 相同 。 该 语法 制导 定义 来 自 图 5-28 的 翻译 模式 。 


图 5-52 布尔 表达 式 的 代码 生成 


语义 规则 









E>TR R.i := T.nptr 
E.npir := R.s 
R ~ addopT R, R.i := mknode (addop.lexeme, R.i, T.nptr) 
R.s := RI.s 
R>e R.s := Ri 
T 一 num T.nptr := mkleaf (num, num. val) 





图 5-53 从 图 $-28 修 改 得 来 的 语法 制导 定义 
R 的 每 个 属性 的 生存 期 在 依赖 于 该 属性 的 各 属性 都 被 计算 完 以 后 结束 。 可 以 证 明 ， 对 任何 


分 析 树 ，R 的 属性 可 以 在 同一 个 寄存 器 r 中 完成 p "N 

计算 。 图 5-54 的 推理 过 程 是 分 析 文法 的 典型 方法 ， oN 

其 基本 思想 是 对 尺子 树 的 大 小 进行 归纳 。 re A 
应 用 Re 时 , 得 到 的 是 最 小 的 R 子 树 , 此 时 ， mir 


R.s 是 Ri 的 复制 ， 所 以 其 值 都 保存 在 寄存 器 > 中 。 图 5-54 E— TR 的 依赖 图 


TE il FE 


对 于 较 大 的 R 子 树 ， 子 树 根 节点 对 应 的 产 
生 式 必定 是 Raddop TR1。R.i 的 生存 期 在 
计算 Ri.i 时 结束 ， 因 此 Rii 就 可 以 保存 在 寄 
存 器 > 中。 由 归纳 假设 ，R 子 树 可 以 在 同一 
个 寄存 器 中 完成 计算 ， 所 以 R 子 树 的 计算 
也 可 以 在 同一 个 寄存 器 中 完成 。 最 后 ， 由 
F R.s 是 从 Ri.s 复制 而 来 的 ， 因 此 其 值 已 经 
保存 在 寄存 器 中 了 。 

图 5-55 的 翻译 模式 用 来 计算 图 5-53 中 
属性 文法 的 属性 ， 它 只 用 一 个 寄存 器 > 来 
保存 所 有 非 终结 符 R 实例 的 RE 和 Rs 属 
性 值 。 

为 完整 起 见 ， 我 们 在 图 5-56 中 给 出 实 
现 上 述 翻 译 模 式 的 代码 ， 它 是 根据 算法 
5.2 构 造 出 来 的 。 因 为 非 终 结 符 R 不 再 具 
有 属性 ， 所 以 R 就 成 了 一 个 过 程 而 不 是 函 
Jo MRE F, r 是 局 部 变量 ， 因 此 我 们 
可 以 递归 调用 函数 E， 虽 然 在 图 5-55 的 模 
式 中 我 们 不 需要 这 样 做 。 我 们 可 以 像 在 
2.5 节 中 那样 将 代码 进一步 改进 ， 方 法 是 : 
消除 尾 递 归 ， 并 用 结果 过 程 体 替换 R 的 其 
他 调用 。 口 


5.10 语法 制导 定义 的 分 析 
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EoT {r:= T.nptr /#7 现在 保存 Ri #/ } 
{ E.nptr:=r /rr 返回 值 R.s #7} 


R 


R > addop 


T { r := mknode (addop.lexeme, r, T.nptr) } 
R ， 


R>e 
T > num 


{ T.nptr := mkleaf (num, num.val) } 





图 5-55 转换 后 的 构造 语法 树 的 翻译 模式 


function E: 1 syntax_tree_node; 
var r: t syntax_tree_node; 
addoplexeme : char, 


procedure R; 
begin 
if lookahead = addop then begin 
addoplexeme := lexval, 
match (addop); 


r := mknode (addoplexeme, r, T); 


begin 
ri= TR 
returnr 
end; 


图 5-56 将 过 程 R 和 图 5-31 中 的 代码 进行 比较 





在 5.7 节 中 ， 属 性 是 在 遍历 分 析 树 时 用 一 组 相互 递归 调用 的 函数 来 计算 的 。 每 一 个 非 终结 
符 对 应 的 函数 将 节点 的 继承 属性 值 映 射 成 节点 的 综合 属性 值 。 

5.7 节 中 的 方法 可 以 扩展 到 不 能 在 一 次 深度 优先 遍历 中 完成 的 翻译 中 。 此 时 ， 我 们 将 为 每 个 
非 终结 符 的 每 个 综合 属性 分 别 定义 一 个 函数 。 虽 然 有 些 综合 属性 可 以 形成 一 组 ， 并 可 用 一 个 函 
数 来 计算 ，5.7 节 处 理 的 就 是 将 所 有 综合 属性 当成 一 组 一 起 计算 的 特殊 情况 。 属 性 如 何 分 组 由 语 
法 制导 中 语义 规则 所 建立 的 依赖 关系 来 确定 。 下 面 的 例子 用 于 说 明 如 何 构造 递归 计算 程序 。 


例 5.29 图 5-57 中 的 语法 制导 定义 是 针对 一 个 实际 问题 的 ， 该 问题 我 们 要 在 第 6 章 进行 讨 


论 。 简 单 地 说 ， 该 问题 的 基本 意思 是 : 
“ 重 载 ” 的 标识 符 可 以 有 一 组 可 能 的 类 
型 ， 因 此 表达 式 也 可 以 有 一 组 可 能 的 类 
型 。 需 要 用 上 下 文 信息 为 每 个 子 表达 式 
选择 一 个 可 能 的 类 型 。 通 过 自 底 向 上 扫 
找 ， 综 合 出 可 能 类 型 的 集合 ， 再 自 顶 向 
下 扫描 ， 将 该 集合 缩小 成 单个 类 型 即 可 
解决 该 问题 。 

图 5$-57 中 的 语义 规则 是 该 问题 的 抽 










语义 规则 


S-E E.i := g(E.s) 
S.r := Et 
E > Ei E: E.s := SS(E,.s, E.s) 
Ei := fil(E.i) 
Ezi := fi2(E.i) 
Et:= ft(E,.t, Ey.t) 
E > id E.s := id.s 


E.t := h(E.i) 
图 5-57 综合 属性 s 和 i 不 能 一 起 计算 
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象 描述 。 综 合 属 性 :代表 可 能 类 型 的 集合 ， 继 承 属 性 i 代表 上 下 文 信息 。 另 外 一 个 综合 属性 t 
代表 生成 的 代码 或 子 表达 式 的 类 型 ， 它 不 能 在 扫描 计算 s 的 同一 遍 中 完成 计算 。 图 5-57 中 产生 
式 的 依赖 图 如 图 5-58 所 示 。 口 





图 5-58 图 5-57 中 产生 式 的 依赖 图 

5.10.1 属性 的 递归 计算 

每 一 个 产生 式 的 语义 规则 都 形成 一 个 依赖 子 图 ， 分 析 树 的 依赖 图 就 是 在 此 基础 上 组 装 而 成 
的 。 产 生 式 p 的 依赖 图 D, 只 是 基于 该 产生 式 的 语义 规则 ， 即 基于 该 产生 式 左 部 综合 属性 的 语 
义 规 则 以 及 产生 式 右 部 文法 符号 继承 属性 的 语义 规则 。 也 就 是 说 ，D, 只 给 出 了 局 部 依赖 关系 。 
例如 ， 图 5-58 中 EE, E, 的 依赖 图 中 ， 所 有 边 都 在 同类 属性 (如 s 属性 ) 的 不 同 实 例 之 间 。 从 
该 依赖 图 我 们 还 看 不 出 s 属性 必须 在 其 他 属性 之 前 计算 。 

图 5-59 是 分 析 树 的 整体 依赖 图 ， 对 其 
详细 分 析 可 以 发 现 ， 非 终结 符 E 的 每 个 实 
例 的 属性 必须 按照 Es, Ei 和 E.t 的 顺序 
计算 。 注 意 ， 图 5-59 中 的 所 有 属性 都 可 以 
在 3 所 扫描 中 完成 计算 : 自 底 向 上 扫描 以 
计算 s 属性 ， 自 项 向 下 扫描 以 计算 i 属性 ， “ 
最 后 再 自 底 向 上 扫描 以 计算 1 属性 。 | : 

递归 计算 程序 中 ， 计 算 综 合 属性 的 函 aoe aoe 





数 以 某 些 继承 属性 的 值 为 参数 。 一 般 地 ， 图 5-59 分 析 树 的 依赖 图 


如 果 综 合 属 Aa 依赖 于 继承 属性 Ab, IRATE Aa 的 函数 就 以 Ab 为 参数 。 在 分 析 依 赖 关 系 
之 前 ， 我 们 用 下 例 来 说 明 其 应 用 。 


例 5.30 ”图 5-60 中 的 函数 Es 和 Ei 返回 标号 为 E 的 节点 n 的 综合 属性 s 和 1 的 值 。 正 如 5.7 
节 所 讨论 的 ， 非 终结 符 对 应 的 函数 根据 所 用 产生 式 来 分 情况 考虑 ， 每 种 情况 下 执行 的 代码 分 别 
计算 图 $-57 中 与 该 产生 式 相关 的 语义 规则 。 

由 上 述 对 图 5-59 中 依赖 图 的 讨论 ,我 们 知道 分 析 树 中 节点 的 属性 E.t 可 能 依赖 于 属性 Ei, 
因此 继承 属性 i 是 函数 Et 的 参数 。 因 为 属性 E.s 不 依赖 于 任何 继承 属性 ， 所 以 函数 Es 没有 属 
性 值 参数 。 口 


5.10.2 强 无 环 的 语法 制导 定义 

我 们 可 以 为 一 类 称 为 “ 强 无 环 ” 定 义 的 语法 制导 定义 构造 递归 计算 程序 。 对 这 类 定义 ,一 
个 非 终 结 符 所 有 实例 节点 的 属性 都 可 按 同 样 的 顺序 ( 偏 序 ) 进行 计算 。 当 我 们 构造 计算 该 非 终 
结 符 综合 属性 的 函数 时 ， 该 顺序 可 以 用 来 选择 作为 函数 参数 的 继承 属性 。 

我 们 将 形式 化 地 定义 这 类 语法 制导 定义 ， 并 证 明 图 5-57 的 语法 制导 定义 就 属于 此 类 。 接 下 
来 ,我 们 给 出 一 个 是 否 有 环 及 是 否 强 无 环 的 检测 算法 ， 并 说 明 如 何 将 例 5.30 的 实现 方法 扩展 到 
所 有 的 强 无 环 语法 制导 定义 上 。 


语法 制 时 翻译 





考虑 在 分 析 树 节点 n 处 的 非 终结 符 4。 在 分 析 
树 的 依赖 图 中 通常 可 能 有 这 样 的 路 径 : 从 节点 n 的 
某 一 属性 开始 ， 经 过 分 析 树 其 他 节点 的 属性 , 到 on 
的 男 一 个 属性 结束 。 对 我 们 而 言 ， 只 需 观 察 分 析 树 
中 4 以 下 的 路 径 。 显 然 ， 这 样 的 路 径 是 从 4 的 某 个 
继承 属性 到 4 的 某 个 综合 属性 的 ， 我 们 将 通过 考察 
4 的 属性 的 偏 序 关系 来 对 这 种 路 径 的 集合 进行 估计 。 

令 产生 式 p 右 部 的 非 终结 符 为 41, An 0, An, 
S RA, FE hj (1<j<n) 的 属性 上 的 偏 序 关系 。 在 D, 
中 ， 如 果 在 RAj 中 属性 A .b 先 于 Aj.c, 则 加 上 从 Aj.b 
到 hj.c 的 边 ， 依 次 考察 各 非 终 结 符 的 各 属性 即 可 得 
到 一 个 依赖 图 : 记 为 D, LRA, RA,,…, RA, ]。 

一 个 语法 制导 定义 是 强 无 环 的 ， 如 果 对 每 个 非 
终结 符 4， 我 们 都 可 以 找到 4 的 属性 上 的 一 个 偏 序 
关系 RA， 使 得 对 每 个 以 4 NER, Ai, 42,…, An 出 
现在 右 部 的 产生 式 p 都 有 : 

1. D,[ RA, RA, wey R4,] 是 无 环 的 ; 并 且 

2. 如 果 D, [ RAs, RA2 °°, Rh4,] 中 存在 从 属性 A.D 
到 4.c 的 边 ， 那么 RA 中 A.D 先 于 A.c。 


例 5.31 4 p 是 图 5-57 中 的 产生 式 EE, Ep, 
其 依赖 图 D, 如 图 5-58 中 间 所 示 。 令 RE Æ E 的 属性 
上 的 偏 序 关系 ( 此 时 是 全 序 关系 ) s>i>t, E4 
符 E 在 p 的 右 部 出 现 两 次 ， 和 通常 一 样 ， 写 成 E 
和 E FÆ, RE, RE. 和 RE 是 相等 的 ， 图 D, [RE 
RE,] 如 图 5-61 所 示 。 

图 5-61 中 和 根 E 相关 的 属性 中 ， 只 有 一 条 路 径 ， 
BDA i 到 1 的 路 径 。 因 为 RE 中 i Fr, MARNE 
反 第 2 个 条 件 。 口 


给 定 强 无 环 定义 和 每 个 非 终结 符 4 的 
属性 上 的 偏 序 关系 RA， 计 算 4 综合 属性 

s 的 函数 的 参数 为 ， 如果 RA 中 继承 属性 。 
i 先 于 s， 那 么 i 就 是 该 函数 的 参数 ; B | 
则 不 是 。 

5.10.3 环形 检测 
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function Es(n); 
begin 
case 节点 n 处 的 产生 式 of 
'E > E,E': 
sl := Es(child(n, 1)); 
s2 := Es(child(n, 2)); 
return fs(s/, s2); 
'E > id’: 
return id.s; 
default: 
error 
end 
end; 


function Er(n, i); 
begin 
case 节点 n 处 的 产生 式 of 
'E >E E: 
il := fil(i), 


tl := Et(child(n, 1), il); 
i2 := fi2(i); 
t2 := Et(child(n, 2), i2); 
return ff(t/, t2); 
'E = id’: 
return h(i); 
default: 
error 
end 
end; 
function Sr (n); 
begin 
s := Es(child(n, 1)); 
i:= g(s); 
t := Er(child(n, 1), i); 
return / 





图 5-60 计算 图 5-57 中 综合 属性 的 函数 





图 5-61 产生 式 的 扩充 依赖 图 


如 果 某 个 分 析 树 的 依赖 图 中 存在 环 路 ， 则 称 该 语法 制导 定义 是 环形 的 。 环 形 语法 制导 定义 
是 不 规则 且 无 意义 的 。 环 上 的 任何 属性 值 都 无 法 计算 。 计 算 属 性 上 的 偏 序 关系 〈 它 可 以 保证 一 
个 制导 定义 是 强 无 环 的 ) 与 检测 一 个 制导 定义 是 否 是 环形 的 密切 相关 。 因 此 ， 我们 首先 讨论 环 


形 检测 问题 。 


例 5.32 在 下 面 的 语法 制导 定义 中 ,4 的 属性 间 的 路 径 依赖 于 所 使 用 的 产生 式 。 如 果 使 用 


332 
1 
334 


335 
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A>1, A.s 就 依赖 于 Ai; 否则 ， 就 没有 该 依赖 关系 。 因 此 ， 为 完整 地 分 析 可 能 的 依赖 信息 ， 
我 们 必须 考虑 非 终结 符 属性 上 的 偏 序 关 系 集合 。 
图 5-62 中 算法 的 基本 思想 为 :用 无 环 有 向 图 表 
示 偏 序 关 系 。 给 定 一 个 产生 式 右 部 符号 属性 的 dag, 
我 们 可 以 用 下 述 方法 确定 其 左 部 符号 属性 的 dag。 


for 文法 符号 X do 
FX) 中 有 一 个 带 有 X 的 属性 的 图 ， 图 中 没有 边 ; 
repeat 
change := false: 
for 产生 式 pgiven by A ~X\X,°° - X, do begin 
for dags G EF(XI),...,， G,€F(X,) do begin 
D := D,; 
for G Pb >c, 1<j<kdo 
在 D 中 深 吉 一 条 XX 的 属性 bp 和 c 之 间 的 边 ; 
if DAR then 
环形 测试 失败 
else begin 
:= 一 个 新 的 图 ， 其 节点 为 4 的 属性 ， 没 有 边 ; 
for 4 的 每 对 属性 bp 和 c do 
这 G 中 有 一 条 从 b 到 c 的 路 径 then 
将 边 bp 一 c 添加 到 G 中 ; 
if G6 还 没有 在 多 (4) 中 then begin 
EGTA BF (AF; 
change := true 
end 
end 
end 
end 
until change = false 





SS 
























图 5-62 环形 检测 算法 


令 产 生 式 p 为 A 一 XI1X,…Xt， 其 依赖 图 为 D,, H DA XW dag, 1<j<k. D PHRA 
ba 都 被 暂时 加 入 依赖 图 D, 中 。 如 果 扩 充 后 的 结果 图 中 有 环 路 ， 则 该 语法 制导 定义 就 是 环形 
的 。 和 否则 ， 从 结果 图 中 的 路 径 信息 可 以 得 出 该 产生 式 左 部 属性 上 的 dag， 将 此 dag 加 入 儿 (4) 中 。 

对 任何 文法 符号 X， 图 5-62 的 环形 检测 算法 的 时 间 复 杂 性 随 集 合 儿 (X) 中 图 的 个 数 呈 指 数 增 
长 。 存 在 多 项 式 时 间 内 不 能 完成 环形 检测 的 语法 制导 定义 。 

如 果 一 个 语法 制导 定义 是 强 无 环 的 , 我 们 就 可 以 将 图 5-62 的 算法 转换 成 一 个 更 有 效 的 算法 ， 
方法 为 : 对 每 一 个 X， 我 们 不 是 维护 图 (X) 的 集 族 ， 而 是 将 此 集 族 中 的 信息 汇总 为 一 个 图 FX) 
来 保存 。 注 意 ， 对 X 的 属性 ， 匀 (中 的 每 一 个 图 都 有 相同 的 节点 ， 只 是 边 有 可 能 不 同 。 如 果 
争 ( 如 的 任 一 图 中 存在 一 条 从 Xb 到 和 ec 的 边 ， 则 FCO 中 也 存在 同样 的 边 。F(X) 表示 X 属性 间 
依赖 关系 的 “最 坏 估 计 ”。 所 以 ， 如 果 F( 加 是 无 环 的 ， 就 能 保证 语法 制导 定义 是 无 环 的 。 但 反 
过 来 不 一 定 成 立 ， 即 如 果 F(X) 中 存在 环 ， 语 法 制导 定义 却 不 一 定 是 环形 的 。 

如 果 成 功 的 话 ， 修 改 后 的 环形 检测 算法 可 以 为 每 个 X 构造 无 环 图 F(X)。 用 这 些 图 可 以 为 
语法 制导 定义 构造 一 个 属性 计算 程序 ， 其 方法 可 以 从 例 5.30 直 接 衍 生出 来 。 计 算 综 合 属性 Xs 
的 函数 将 且 只 将 在 F(X) PETF s 的 所 有 继承 属性 作为 参数 。 节 点 n 处 调用 的 函数 调用 其 子 节 
点 处 其 他 计算 所 需 综合 属性 的 函数 。 计 算 这 些 属性 的 子 程序 是 为 它们 所 需要 的 继承 属性 所 传递 
的 值 。 事 实 上 ， 强 无 环 检测 的 成 功 保证 了 这 些 继承 属性 是 可 被 计算 的 。 
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练习 


5.1 
5.2 


5.3 


*5.4 
5.5 


5.6 


5.7 


5.8 


5.9 


根据 图 5-2 中 的 语法 制导 定义 ， 为 输入 表达 式 (4*7+1) *2 构 造 注释 分 析 树 。 

根据 

a) 图 5-9 的 语法 制导 定义 。 

b) 图 5-28 的 翻译 模式 。 

为 表达 式 ( (a) + (b) ) 构造 分 析 树 和 语法 树 。 

构造 下 述 表 达 式 的 无 环 有 向 图 ( dag )， 并 用 值 编号 标识 各 个 子 表达 式 ， 假 设 + 是 左 结 

合 的 : 

a+a+ (atata+ (atat+aia) ) 

试 给 出 将 中 缀 表达 式 翻 译 成 无 多 余 括 号 的 中 级 表达 式 的 语法 制导 定义 。 例 如 ， 因 为 + 

和 * 都 是 左 结 合 的 ， 所 以 ( (a* (b+c))* (qd) 可 以 写成 a* (b+c)*d。 

对 于 将 算术 运算 符 +、* 应 用 到 变量 x 和 常数 上 所 形成 的 求 导 表达 式 , 如 x* (3*x+x*x)， 

试 给 出 其 语法 制导 和 定义。 假设 对 结果 不 需 化 简 ， 那 么 3 *x 将 翻译 成 3* 1+0*xo。 

下 列 文 法 产生 的 表达 式 是 对 整 常数 和 实 常 数 应 用 运算 符 + 所 形成 的 。 只 有 两 个 整数 相 

加 时 ， 结 果 才 是 整 型 ， 否 则 就 是 实 型 。 

E>E+T|T 

T > num . num | num 

a) 试 给 出 确定 每 个 子 表达 式 类 型 的 语法 制导 定义 。 

b) 扩充 (a) 的 语法 制导 定义 使 之 既 可 以 确定 类 型 ， 又 能 把 表达 式 翻 译 为 后 缀 表示 。 使 
用 一 元 运算 符 inttoreal 将 整 型 值 转换 成 实 型 值 ， 以 使 得 后 缀 式 中 + 的 两 个 运算 对 象 
具有 相同 的 类 型 。 

扩充 图 5-22 的 语法 制导 定义 ,使 之 除了 可 以 记 住 盒子 的 高 度 外 ， 还 能 记 住 其 宽度 。 假 

设 终结 符 text 具有 综合 属性 w， 它 给 出 正文 的 标准 宽度 。 

令 综 合 属 性 val 给 出 下 列 文法 中 5 产生 的 二 进 制 数 的 值 。 例 如 ， 输 入 101 .101 时 ， 

S.val = 5.625 


S>L.L]|L 

L+LB|B 

B+o|{1 

a) 试用 综合 属性 确定 S.val。 

b) 试用 语法 制导 定义 确定 S.val。 在 该 定义 中 ，B 只 有 综合 属性 c， 它 给 出 由 B 产生 
的 位 对 最 终 值 的 贡献 。 例 如 ，101 .101 的 第 一 位 和 最 后 一 位 对 值 5.625 的 贡献 分 别 
为 4 和 0.125。 


重 写 例 5.3 中 语法 制导 定义 的 基础 文法 ,使 得 类 型 信息 只 需 用 综合 属性 进行 传播 。 


*5.10 当下 列 文法 产生 的 语句 被 翻译 成 抽象 机 器 代码 时 ，break 语句 翻译 为 一 个 跳 转 指令 ， 它 


跳 转 到 最 近 的 while 循环 外 。 为 简单 起 见 ， 我 们 用 终结 符 expr 表示 表达 式 ， 用 终结 符 
other 表示 其 他 类 型 的 语句 。 这 些 终结 符 都 具有 综合 属性 code， 表 示 其 翻译 后 的 代码 。 
S — while expr do begin S end 

| 5;8 

| break 

| other 
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5.11 
5.12 


5.13 


5.14 
5.15 


5.16 


* 5.17 


5.18 
£5.19 


* 5.20 


5. 


N 
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试 给 出 一 个 语法 制导 定义 ， 将 语句 翻译 成 2.8 节 的 栈 式 机 器 代码 。 要 全 保持 套 while 语 
AJP break 的 正确 翻译 。 


试 从 练习 5.6(a) 和 练习 5.6(p) 中 的 语法 制导 定义 中 消除 左 递归 。 


由 下 列 文法 产生 的 表达 式 中 可 能 包括 赋值 号 : 


S—+E 

E-rE:s E|E+E|CE) | id 

表达 式 的 语义 和 C 语 言 一 样 ， 即 表达 式 b:=c 将 c KIRA b, 而 a:= (pb:=c) 把 

c WERA b 然后 再 赋 给 ao 

a) 试 构造 一 个 语法 制导 定义 ,检查 赋值 表达 式 的 左 部 是 否 为 左 值 。 用 非 终 结 符 E 的 
继承 属性 side 来 指出 五 所 产生 的 表达 式 是 出 现在 赋值 号 的 左 部 还 是 右 部 。 

b) 扩充 (a) 中 的 语法 制导 定义 使 其 在 检查 输入 时 生成 2.8 节 栈 式 机 器 的 中 间 代 码 。 

重 写 练习 $.12 中 的 基础 文法 ， 使 之 能 对 子 表 达 式 进行 分 组 ， 把 := 的 子 表 达 式 分 到 左 

边 ， 把 + 的 子 表达 式 分 到 右边 。 

a) 试 构造 一 个 模拟 练习 5.12(b) 中 语法 制导 定义 的 翻译 模式 。 

b 修改 (3) 中 的 翻译 模式 ， 使 之 能 够 按 指 令 编 号 递增 地 将 代码 输出 到 文件 中 。 

试 给 出 一 个 翻译 模式 ， 以 检查 相同 的 标识 符 是 否 不 会 在 标识 符 表 中 出 现 两 次 。 

假设 声明 语句 是 由 下 列 文法 产生 的 : 

D ~ idL 


L>,idL|:T 
T — integer | real 


a) 试 构 造 一 个 翻译 模式 ， 像 例 5.3 那 样 ， 将 每 个 标识 符 的 类 型 填 人 符号 表 中 。 

b) 根据 (3) 的 翻译 模式 构造 一 个 预测 翻译 器 。 

下 面 的 文法 是 图 $-22 中 基础 文法 的 无 二 义 性 版 本 ， 其 中 括号 {} 只 是 用 来 为 盒子 分 组 ， 
在 翻译 过 程 中 将 被 删 掉 。 


9 一 了 工 
L-LB{B 

B > BsubF |F 
F — {L} | text 


a) 试 改 写 图 $-22 中 的 语法 制导 定义 使 之 适用 于 上 面 的 文法 。 

b) 试 将 (a) 中 的 语法 制导 定义 转换 成 翻译 模式 。 

扩充 5.5 节 中 消除 左 递归 的 变换 方法 ， 使 之 允许 (5-2) 中 的 非 终 结 符 4 具 有 : 

a) 由 复制 规则 定义 的 继承 属性 。 

b) 继承 属性 。 

从 练习 5.16(b) 的 翻译 模式 中 消除 左 递归 。 

设 有 属性 定义 ， 其 基础 文法 或 者 是 LL(1) 的 ,或 者 是 一 个 能 解决 其 二 义 性 并 能 构造 
预测 语法 分 析 器 的 文法 。 试 证 明 可 以 将 继承 属性 和 综合 属性 放 在 由 预测 语法 分 析 表 
所 驱动 的 自 顶 向 下 语法 分 析 器 的 分 析 栈 中 。 

试 证 明 在 LL(1) 文 法 的 任何 位 置 加 上 惟一 的 标记 非 终结 符 后 ， 结 果 文 法 都 将 是 LR(1) 
文法 。 

考虑 对 LR(1) 文 法 L-*Lb1a 的 如 下 改造 : 
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L-+MLb|la 

Moe 

a) 在 输入 串 abbb 的 分 析 树 中 ， 自 底 向 上 语法 分 析 器 应 用 产生 式 的 顺序 是 什么 ? 
* b) 证 明 修 改 后 的 文法 不 是 LR(1) 文 法 。 

*5.22 证 明 在 基于 图 5-36 的 翻译 模式 中 ， 无 论 何 时 归 约 B 的 右 部 ,分 析 栈 中 继承 属性 B.ps 
的 值 总 是 紧 挨 在 该 产生 式 右 部 的 下 边 。 

5.23 算法 5.3 用 于 完成 带 有 继承 属性 的 自 底 向 上 语法 分 析 和 翻译 ， 它 使 用 标记 非 终 结 符 在 
分 析 栈 中 预知 的 位 置 上 保存 继承 属性 的 值 。 如 果 该 值 存 放 在 与 分 析 栈 不 同 的 栈 中 ， 
那么 所 需 标 记 非 终结 符 的 数量 将 会 减少 。 

a) 试 将 图 5-36 中 的 语法 制导 定义 转换 成 翻译 模式 。 
b) 修改 (a) 中 构造 的 翻译 模式 ， 使 得 继承 属性 ps 的 值 出 现在 另 一 个 栈 中 。 消 除 标记 
非 终结 符 M。 

* 5.24 像 练 习 5.23 中 那样 ， 考 虑 语法 分 析 过 程 中 的 翻译 。S. C. Johnson 提出 如 下 方法 来 模 
拟 一 个 分 离 的 继承 属性 栈 ， 它 需要 使 用 标记 和 一 个 与 每 个 继承 属性 对 应 的 全 局 变量 。 
在 下 面 的 产生 式 中 ， 第 一 个 动作 将 值 v 压 入 栈 i 中， 而 第 二 个 动作 将 它 从 栈 中 弹出 : 
A + a {push(v,i)} B { pop(i) } 

我 们 可 以 通过 下 面 的 产生 式 来 模拟 栈 i， 它 使 用 了 一 个 全 局 变量 8 和 一 个 带 有 综合 
属性 * 的 标记 非 终 结 符 M: 


A>a MB {g:=M.s} 
M > e {M.s:= g8; g:= Vv} 





a) 试 将 该 变换 应 用 到 练习 5.23(b) 中 的 翻译 模式 中 ， 用 对 全 局 变量 的 引用 来 替换 对 另 
一 个 栈 栈 顶 的 引用 。 
b) 斌 证明 用 (a) 中 构造 的 翻译 模式 来 计算 文法 开始 符号 的 综合 属性 可 得 到 和 练习 
5.23(b) 相 同 的 值 。 
5.25 应 用 5.8 节 中 的 方法 ， 用 一 个 布尔 变量 实现 练习 5.12(b) 的 翻译 模式 中 所 有 的 E.side 属性 。 
5.26 修改 例 5.26 深 度 优先 遍历 中 的 栈 的 使 用 方法 ， 使 得 该 栈 中 的 值 与 保存 在 例 5.19 中 分 析 
栈 中 的 值 一 一 对 应 。 


参考 文献 注释 


Irons[1961] 中 靖 述 了 如 何 用 综合 属性 来 表示 语言 的 翻译 。Samelson and Bauer[1960] 和 
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方法 。 该 文中 的 扩充 例子 使 用 了 全 局 属性 训练 过 的 副作用 ， 此 全 局 属性 和 分 析 树 树 根 相关 联 。 
如 果 属 性 可 以 是 函数 ， 那 么 继承 属性 就 可 以 被 删除 。 像 指称 语义 学 中 所 做 的 那样 ， 我 们 可 以 将 
一 个 非 终结 符 与 一 个 从 继承 属性 到 综合 属性 的 函数 联系 起 来 。 这 些 结论 来 自 Mayoh[1981]。 

在 语法 制导 编辑 中 ， 语 义 规则 中 的 副作用 是 不 受 欢 迎 的 。 像 Reps[1984] 中 所 讨论 的 那样 ， 
假设 有 一 个 从 属性 文法 产生 的 源 语 言 编辑 器 ， 考 虑 对 源 程序 的 一 次 编辑 修改 ， 它 将 导致 程序 分 
析 树 中 的 部 分 被 删 掉 。 只 要 不 存在 副作用 ， 修 改 后 的 程序 的 属性 值 就 可 以 被 重新 计算 。 

Ershov[1958] 使 用 散 列 法 来 保存 公共 子 表达 式 。 
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Lewis, Rosenkrantz, and Stearns[1974] 中 提出 了 在 语法 分 析 过 程 中 进行 翻译 的 L 属 性 文法 害 
义 。Bochmann[1976]j 中 把 类 似 的 对 属性 依赖 关系 的 限制 应 用 到 每 一 个 从 左 到 右 的 深度 优先 遍历 
中 。Koster[1971] 中 介绍 了 和 L 属 性 文法 相关 的 词缀 文法 。Koskimies and Riihai[1983] 中 提出 了 
对 L 属 性 文法 的 限制 来 控制 对 全 局 属性 的 访问 。 

Bochmann and Ward[1978] 中 描述 了 一 种 机 械 式 的 预测 翻译 器 构造 方法 ， 其 思想 与 算法 $.2 
类 似 。 自 顶 向 下 的 语法 分 析 可 以 给 翻译 带 来 更 大 的 灵活 性 这 种 说 法 在 Brosgol[1974] 中 已 被 证 明 
是 错误 的 ， 在 该 文献 中 提出 基于 LL(1) 文 法 的 翻译 模式 可 以 在 LR(1) 分 析 中 被 模拟 。Watt[1977] 
中 使 用 标记 非 终 结 符 来 保证 在 自 底 向 上 语法 分 析 过 程 中 继承 属性 的 值 能 出 现在 栈 中 。Purdom 
and Brown[1980] 中 考虑 了 在 不 失去 LR(1) 特 性 的 情况 下 把 标记 非 终结 符 安全 地 插入 到 产生 式 右 
部 相应 的 位 置 上 《参见 练习 $.21 )。 仅 需要 由 复制 规则 定义 的 继承 属性 不 足以 保证 在 自 底 向 上 
语法 分 析 过 程 中 可 以 完成 对 属性 的 计算 ， 因 此 在 Tarhio[1982] 中 给 出 了 充分 的 语义 规则 条 件 。 
Jones and Madsen[1980] 中 给 出 了 一 个 能 在 LR(1) 分 析 过 程 中 进行 计算 的 属性 的 特征 ( 根据 语法 
分 析 器 的 状态 )。 作 为 一 个 不 能 在 语法 分 析 过 程 进 行 翻译 的 例子 ，Giegerich and Wilhelm[1978] 
中 考虑 了 布尔 表达 式 的 代码 生成 。 我 们 将 会 看 到 8.6 节 中 的 回填 不 能 用 在 这 种 问题 上 ， 因 此 一 
遍 完整 的 第 二 遍 扫 描 是 没有 必要 的 。 

从 Fang[1972] 中 的 FOLDS 开 始 ， 人 们 已 经 开发 了 许多 种 用 于 实现 语法 制导 定义 的 工具 ， 但 
很 少 有 得 到 广泛 应 用 的 。Lorho[1977] 中 提出 的 DELTA 在 编译 时 构造 依赖 图 ， 它 通过 保存 属性 
的 生存 期 和 消除 复制 规则 来 节省 空间 。 基 于 属性 计算 方法 的 分 析 树 在 Kennedy and 
Ramanathanf1979] 和 Cohen and Harry[19791 中 进行 了 讨论 。 

Engelfriet[1984] 对 属性 计算 方法 进行 了 综述 ， 它 的 姊妹 篇 Courcellef1984] 则 综述 了 其 理论 
WË Räihä et al. [1983] 中 描述 的 HLP 实 现 了 交互 式 的 深度 优先 遍历 ， 正 如 Jazayeri and 
Walter[1975] 中 所 讨论 的 那样 。Farrow[1984] 中 的 LINGUIST 也 实现 了 交互 式 的 遍历 。Ganzinger 
et al. [1982] 中 指出 了 MUG 可 以 允许 由 节点 产生 式 确定 其 子 节点 被 访问 的 顺序 。Kastens，Hutt， 
and Zimmerman[1982] 中 的 GAG 人 允许 重复 访问 一 个 节点 的 子 节点 。GAG 实 现 了 Kastens[19801 中 
定义 的 一 类 有 序 属 性 文法 。 重 复 访问 的 思想 最 早出 现在 Kennedy and Warren[1976] 中 ， 它 构造 
了 可 以 计算 更 大 的 一 类 强 无 环 文法 的 计算 程序 。 如 果 在 随后 的 一 次 访问 过 程 中 不 再 需要 属性 的 
fA, Kennedy 和 Warren 提 出 的 方法 可 以 通过 把 这 些 属性 值 保存 在 栈 中 来 节省 空间 ，Saarinen 
[1978] 中 对 这 一 方法 进行 了 改进 。Jourdanf1984] 中 描述 的 实现 方法 可 以 为 这 类 文法 构造 递归 计 
算 程 序 。Katayamaf1984] 中 也 构造 了 一 个 递归 计算 程序 。Madsen[1980] 在 NEATS 中 考虑 了 一 种 
不 同 的 方法 ， 它 为 表示 属性 值 的 表达 式 构造 了 一 个 dag。 

在 编译 器 构造 时 对 依赖 关系 的 分 析 可 以 节省 编译 时 的 时 间 和 和 空间。 环形 检测 是 一 个 典型 的 
分 析 问 题 。Jazayeri，Ogden, and Rounds[1975] 中 证 明了 环形 检测 需要 的 时 间 随 文法 的 大 小 呈 指 
数 增 长 。 在 Lorho and Pair [1975], Räihä and Saarinen[19821 和 Deransart Jourdan, and Lorho 
[1984] 中 分 别 给 出 了 环形 检测 的 改进 算法 。 

朴素 的 计算 对 空间 的 需求 带动 了 保存 空间 技术 的 发 展 。Marili[1962] 中 以 独特 的 内 容 描 述 
了 $5.8 节 中 提 到 的 把 属性 值 分 配 到 寄存 器 中 的 算法 。 寻 找 依赖 图 的 拓扑 顺序 使 得 寄存 器 被 使 用 
的 个 数 最 少 的 问题 在 Sethi[1975] 中 被 证 明 是 一 个 NP 完全 问题 。Riaiha[1981] 和 Jazayeri and 
Pozefsky [1981] 中 给 出 了 多 记 计 算 中 对 生存 期 的 编译 时 分 析 。Branquart et al. [1976] 中 提出 在 遍 
历时 使 用 分 离 的 栈 来 保存 综合 属性 和 继承 属性 。GAG 执 行 生 存 期 分 析 并 把 属性 值 放 在 了 所 需 
要 的 全 局 变量 、 栈 和 分 析 树 节点 中 。 在 Farrow and Yellin [1984] 中 对 GAG 和 LINGUIST 使 用 到 
的 两 种 节省 空间 技术 进行 了 比较 。 


第 6 章 类 型 检查 


编译 器 必须 检查 源 程序 是 否 符合 源 语言 规定 的 语法 和 语义 要 求 。 这 种 检查 称 为 静态 检查 
(以 区 别 于 在 目标 程序 运行 时 进行 的 动态 检查 )， 它 检测 并 报告 程序 中 某 些 类 型 的 错误 。 静 态 检 
查 的 例子 包括 : 

1. 类 型 检查 。 如 果 操 作 符 作用 于 不 相 容 的 操作 数 ， 编 译 器 应 该 报错 ; 例如 ， 将 数组 变量 和 
函数 变量 相 加 。 

2. 控制 流 检查 。 引 起 控制 流 从 某 个 结构 中 跳 转 出 来 的 语句 必须 能 够 决定 控制 流转 向 的 目标 
地 址 。 例 如 ，C 语 言 中 的 break 语句 可 以 使 控制 从 while 、for 或 switch 等 语句 所 确定 的 最 小 
“范围 ”中 跳出 ， 如 果 不 存 在 这 样 的 “范围 ”语句 ， 就 会 发 生 错 误 。 

3. 疏 一 性 检查 。 有 时 ， 基 个 对 象 只 能 被 定义 一 次 。 比 如 ，Pascal 语言 中 的 标识 符 就 只 能 被 
声明 一 次 ; 而 case 语 句 中 的 标号 要 求 互 不 相同 ， 标 量 类 型 中 的 元 素 也 不 能 重复 。 

4. 与 名 字 相 关 的 检查 。 有 时 ， 要 求 同 一 名 字 在 特定 位 置 出 现 两 次 或 多 次 。 例 如 ，Ada 语言 
中 循环 结构 ( 或 程序 块 ) 的 名 字 可 能 出 现在 该 结构 的 开始 位 置 及 结束 位 置 。 编 译 器 必须 检查 这 
两 个 地 方 是 否 使 用 了 同一 名 字 。 l 

本 章 将 集中 讨论 类 型 检查 。 正 如 上 面 的 例子 所 指出 的 ， 大 部 分 静态 检查 都 是 一 些 简单 的 工 
作 ， 可 以 使 用 上 一 章 的 技术 来 实现 。 其 中 一 些 工作 可 以 并 入 其 他 活动 中 。 例 如 ， 当 我 们 将 名 字 
信息 填 人 符号 表 时 ， 即 可 对 该 名 字 的 惟一 性 进行 检查 。 许 多 Pascal 编译 器 将 静态 检查 和 中 间 代 
码 生 成 同 语法 分 析 结 合 在 一 起 。 对 于 更 复杂 的 结构 ， 如 Ada 中 的 一 些 结构 ， 将 类 型 检查 作为 
语法 分 析 和 中 间 代 码 生成 之 间 单 独 的 一 遍 会 更 方便 一 些 ， 如 图 6-1 所 示 。 


van 语法 | 语法 树 类 型 ”| 语法 树 | PARE wat pe == 


图 6-1 类 型 检查 器 的 位 置 


类 型 检查 器 将 验证 结构 的 类 型 是 否 与 上 下 文 所 期 望 的 类 型 相 匹配 。 例 如 ，Pascal 内 置 的 算 
术 运 算 符 mod 要 求 整 型 操作 数 ， 所 以 类 型 检查 器 必须 检查 mod 的 操作 数 是 否 为 整 型 。 同 样 地 ， 
类 型 检查 器 必须 能 够 验证 指针 地 址 访问 只 作用 于 指针 ， 下 标 只 作用 于 数组 ， 用 户 自 定 义 的 函数 
只 能 用 于 有 正确 参数 个 数 及 参数 类 型 等 情况 。6.2 节 给 出 了 一 个 简单 的 类 型 检查 器 ，6.3 节 讨论 
类 型 的 表示 以 及 两 个 类 型 匹配 条 件 的 问题 。 

代码 生成 可 能 需要 类 型 检查 器 所 收集 的 信息 。 例 如 ， 像 “+ ”这 样 的 算术 运算 符 通 常 作 用 
于 整 型 或 实 型 ， 也 可 用 于 其 他 类 型 ， 所 以 必须 检查 “+ ”的 上 下 文 以 确定 其 具体 含义 。 一 个 符 
号 在 不 同 的 上 下 文中 可 能 代表 不 同 的 操作 ， 我 们 称 其 为 “ 重 载 "。 重 载 可 能 伴随 有 强制 类 型 转 
换 ， 以 便 编 译 器 把 操作 数 转 化 为 上 下 文 所 期 望 的 类 型 。 

与 重 载 不 同 的 另 一 个 概念 是 “多 态 " 。 多 态 函 数 的 函数 体 可 以 用 不 同类 型 的 参数 来 执行 。 
本 章 最 后 将 给 出 一 个 推断 多 态 函 数 类 型 的 统一 的 算法 。 
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6.1 类 型 系统 


类 型 检查 器 的 设计 基于 语言 中 语法 结构 的 信息 、 类 型 的 概念 以 及 语言 结构 的 类 型 指派 规则 。 
以 下 内 容 分 别 摘录 自 Pascal 报告 和 C 参考 手册 ， 编 译 器 编写 者 可 能 必须 以 此 为 起 点 。 

。“ 如 果 算 术 运 算 符 加 、 减 和 乘 的 两 个 操作 数 都 是 整 型 ， 则 结果 类 型 亦 是 整 型 。 

。“ 一 元 运算 符 & 返 回 指向 操作 数 所 引用 对 象 的 指针 。 如 果 操 作 数 类 型 是 “…" ， 结 果 的 类 

型 就 是 “指向 … 的 指针 ” 。” 

上 面 的 摘录 暗含 了 这 样 的 思想 : 任何 表达 式 都 有 一 个 与 之 相关 的 类 型 ， 而 且 类 型 是 有 结构 
的 ， 如 类 型 “指向 … 的 指针 ”就 是 从 “…” 所 指 的 类 型 那里 构造 得 来 的 。 

Pascal 和 C 的 类 型 都 分 为 基本 类 型 和 构造 类 型 两 种 。 基 本 类 型 是 原子 类 型 ， 对 程序 员 而 言 
没有 内 部 结构 。 在 Pascal 中 ， 基 本 类 型 包括 布尔 型 、 字 符 型 、 整 型 以 及 实 型 。 另 外 ， 子 界 类 型 
(如 1. .10 ) 和 枚 举 类 型 (如 {violet, indigo, blue, green, yellow, orange, red} ) 也 
可 以 看 成 是 基本 类 型 。Pascal 允许 程序 员 利 用 基本 类 型 和 其 他 构造 类 型 来 构造 新 类 型 ， 例 如 数 
组 、 记 录 和 集合 等 。 此 外 ， 指 针 和 函数 也 可 以 看 作 构 造 类 型 。 

6.1.1 类 型 表达 式 

一 个 语言 结构 的 类 型 可 以 用 “类 型 表达 式 ” 来 表示 。 在 这 里 ， 基 本 类 型 是 类 型 表达 式 ， 由 
称 为 类 型 构造 符 的 操作 符 作用 于 类 型 表达 式 而 形成 的 表达 式 也 是 类 型 表达 式 。 基 本 类 型 集 和 构 
造 符 依赖 于 被 检查 的 语言 。 

本 章 采 用 下 述 类 型 表达 式 的 定义 : 

1. 基本 类 型 是 类 型 表达 式 。 基 本 类 型 包括 boolean, char, integer 以 及 real。 男 外 ， 有 一 
个 特殊 的 基本 类 型 bpe_error， 它 用 来 标志 类 型 检查 中 的 错误 。 最 后 ， 基 本 类 型 void 表示 “ 没 
有 值 ”， 它 允许 对 语句 进行 检查 。 

2. 因为 可 以 为 类 型 表达 式 命 名 ， 所 以 类 型 名 也 是 类 型 表达 式 。 应 用 类 型 名 的 例子 见 下 面 的 
3 中 的 c)。 包 含 名 字 的 类 型 表达 式 将 在 6.3 节 讨论 。 

3. 作用 于 类 型 表达 式 的 类 型 构造 器 仍 是 类 型 表达 式 。 构 造 器 包括 : 

a) 数组 。 如 果 了 是 类 型 表达 式 ， 那 么 array (1,T) 就 是 表示 元 素 类 型 为 T、 下 标 集 为 1 的 
数组 类 型 的 类 型 表达 式 。 其 中 了 通常 是 一 个 整数 区 间 。 例 如 ，Pascal 中 的 声明 

var A: array[1..10] of integer; 

将 类 型 表达 式 array(1. .10, integer)Ml A 联系 起 来 。 
b) RAR. WR Tl 和 有 是 类 型 表达 式 ， 则 其 笛 卡 儿 积 九 x 歼 也 是 类 型 表达 式 。 假 定 x 是 左 


c) 记录 。 记 录 和 乘积 的 区 别 在 于 记录 中 的 域 有 名 字 。 类 型 构造 符 record 将 作用 于 由 域名 
和 域 类 型 组 成 的 元 组 。( 从 技术 上 来 说 ， 域 名 应 是 类 型 构造 符 的 一 部 分 ， 但 将 域名 和 其 相关 类 
型 联系 在 一 起 会 更 方便 一 些 。 在 第 8 章 ， 类 型 构造 符 record 作用 在 指向 以 域名 为 表 项 的 符号 表 
的 指针 之 上 。) 例如 ，Pascal 程序 段 


type row = record 
address: integer; 


lexeme: array [1..15] of char 
end; 
var table: array [1..101] of row; 


声明 了 表示 下 列 类 型 表达 式 的 类 型 名 row: 
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record((address x integer) X (lexeme x array(1..15, char))) 


变量 table 是 该 类 型 的 记录 数组 。 


d) 指针 。 如 果 T 是 类 型 表达 式 ， 那么 pointer (T) 也 是 类 型 表达 式 ， 表 示 “ 指 向 类 型 为 了 
的 对 象 的 指针 ”。 例 如 ，Pascal 中 的 声明 


var p: 1 row 


声明 变量 p 具有 pointer (row) 类 型 。 

e) 函数 。 从 数学 的 角度 看 ， 函 数 将 一 个 集合 (定义 域 ) 中 的 元 素 映射 到 另 一 集合 〈 值 域 ) 
上 。 可 以 将 程序 设计 语言 中 的 函数 看 成 是 从 定义 域 类 型 D 到 值 域 类 型 RR 的 映射 。 这 种 函数 的 
类 型 可 以 用 类 型 表达 式 DR 来 表示 。 例 如 ，Pascal 内 部 函数 mod， 其 定义 域 类 型 为 int x int, 
即 一 对 儿 整 数 ， 值 域 类 型 为 int。 所 以 说 mod 的 类 型 为 : ° 


int x int = int 
另 一 个 例子 是 如 下 的 Pascal 声明 : 


function f(a, b: char) : + integer; --: 


f 定义 域 类 型 为 char x char， 值 域 类 型 为 pointer ( integer), 所 以 函数 f 的 类 型 可 以 用 下 
面 的 类 型 表达 式 表 示 : 


char X char — pointer (integer) 


通常 ， 出 于 具体 实现 上 的 原因 〈 下 一 章 讨论 )， 可 能 对 函数 的 返回 类 型 有 一 些 限 制 ， 比 如 ， 郴 
数 的 返回 类 型 不 能 为 数组 类 型 或 函数 类 型 。 但 是 ， 也 有 些 语言 允许 函数 返回 任意 的 类 型 ，Lisp 
就 是 最 好 的 例子 。 例 如 ， 我 们 可 以 定义 一 个 如 下 类 型 的 函数 g: 


(integer > integer) > (integer — integer) 


即 ， 函 数 g 以 将 整数 映射 到 整数 的 函数 作为 参数 并 输出 同 种 类 型 的 另 一 个 函数 作为 结果 。 

4. 类 型 表达 式 可 以 包含 其 值 为 类 型 表达 式 的 变量 。 类 型 变量 将 在 6.6 节 介绍 。 

可 以 用 图 方便 地 表示 类 型 表达 式 。 使 用 5.2 节 中 的 语法 制导 方法 ， 可 以 为 类 型 表达 式 构造 
一 棵 树 或 dag， 其 内 节点 表示 类 型 构造 符 ， 叶 节点 表示 基本 类 型 、 类 型 名 以 及 类 型 变量 ( 见 图 
6-2 )。6.3 节 给 出 了 一 个 类 型 表达 式 表 示 的 例子 ， 该 例子 已 经 被 用 在 了 编译 器 中 。 


一 





> 


x x 


pointer 
< > 


char char integer char 


pointer 


integer 
图 6-2 表示 char x char>pointer (integer) 的 树 和 dag 
6.1.2 类 型 系统 
类 型 系统 是 将 类 型 表达 式 指派 到 程序 各 部 分 的 一 组 规则 。 类 型 检查 器 用 来 实现 类 型 系统 。 
本 章 的 类 型 系统 采用 语法 制导 方式 来 说 明 ， 所 以 使 用 上 一 章 的 技术 可 以 很 容易 地 实现 。 
同一 语言 的 不 同 编译 器 或 处 理 器 可 能 使 用 不 同 的 类 型 系统 。 例 如 ， 在 Pascal 语言 中 ， 数 组 
的 类 型 包括 数组 的 下 标 集 合 ， 所 以 以 数组 为 参数 的 函数 只 能 用 于 具有 同样 下 标 集合 的 数组 。 但 


O 假设 x 的 优先 级 高 于 一 ， 所 以 int x int int4g (int x int) int 是 相同 的 。 一 还 是 右 结 合 的 。 


w 
> 
~J 
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是 ,许多 Pascal 编译 器 在 传递 数组 参数 时 ， 人 允许 不 说 明 其 下 标 集合 。 这 些 编译 器 使 用 的 类 型 系 
统 就 不 同 于 Pascal 语言 定义 中 的 类 型 系统 。 类 似 地 ， 在 UNIX 系统 中 ， 命 令 lint 检查 C 程 
序 中 的 某 些 错误 ， 它 使 用 的 类 型 系统 比 C 编译 器 使 用 的 类 型 系统 更 加 细致 。 
6.1.3 静态 和 动态 类 型 检查 

由 编译 器 完成 的 检查 称 为 静态 检查 ， 而 在 目标 程序 运行 时 完成 的 检查 则 称 为 动态 检查 。 原 
则 上 ， 如 果 目 标 代码 将 每 个 元 素 的 类 型 和 其 值 保存 在 一 起 ， 则 任何 检查 都 可 以 动态 完成 。 

健全 的 类 型 系统 能 静态 地 确定 在 目标 程序 运行 时 不 会 发 生 错误 ， 因 此 不 需 动态 检查 。 也 就 
是 说 ， 如 果 一 个 健全 的 类 型 系统 将 一 个 不 是 type_error 的 类 型 指派 给 程序 的 一 部 分 ， 那么 这 部 
分 程序 的 目标 代码 在 运行 时 就 不 会 发 生 类 型 错误 。 如 果 某 一 语言 的 编译 器 能 保证 它 所 接受 的 程 
序 不 会 在 运行 时 发 生 类 型 错误 ， 则 称 此 语言 是 强 类 型 语言 。 

实际 上 ， 有 些 检查 只 能 动态 完成 。 例 如 ， 若 首先 声明 下 列 变量 : 

table: array[0..255] of char; 

i: integer 
然后 再 计算 table [i] ， 通 常 编译 器 不 能 保证 执行 期 间 i A Eoss, © 
6.1.4 错误 恢复 

由 于 类 型 检查 具有 捕捉 程序 中 错误 的 潜力 ， 所 以 ， 对 类 型 检查 器 来 说 ， 在 发 现 错 误 时 执行 
一 些 有 意义 的 操作 就 非常 重要 。 编 译 器 至 少 必须 能 报告 错误 的 性 质 和 位 置 ， 而 且 希 望 类 型 检查 
器 能 从 错误 中 恢复 ， 以 便 检查 剩 下 的 输入 。 因 为 错误 处 理会 影响 类 型 检查 的 规则 ， 所 以 一 开始 
就 必须 将 其 正确 地 设计 进 类 型 系统 中 ， 这 些 规则 必须 准备 处 理 各 种 错误 。 

包含 出 错 处 理 的 类 型 系统 可 能 比 说 明正 确 程序 所 需 的 类 型 系统 大 得 多 。 例 如 ， 一 旦 出 现 错 
wR, 我们 可 能 不 知道 这 一 错误 程序 片段 的 类 型 。 为 处 理 这 一 缺少 信息 的 情况 ,我 们 需要 使 用 类 
似 于 不 必 先 声明 即 可 使 用 标识 符 的 技术 。6.6 节 讨论 的 类 型 变量 可 用 于 保证 未 声明 或 明显 误 声 
明 标 识 符 的 使 用 一 致 性 。 


6.2 一 个 简单 的 类 型 检查 器 的 说 明 


本 节 说 明了 一 个 简单 语言 的 类 型 检查 器 ， 在 该 语言 中 ， 每 个 标识 符 使 用 前 必须 先 声明 。 访 
类 型 检查 器 是 一 个 翻译 模式 ,可 以 从 子 表达 式 的 类 型 合成 表达 式 的 类 型 ， 能够 处理 数组 、 指 针 、 
语句 以 及 函数 。 
6.2.1 一 种 简单 语言 

图 6-3 的 文法 产生 由 非 终结 符 P 表示 的 程序 ， 该 程序 由 一 系列 声明 D 和 随后 的 一 个 表达 式 
E Am. 

用 图 6-3 中 的 文法 可 以 产生 如 下 程 | Spin | wast 


ZE: T ~ char | integer | array [ num ] of T | tT 
E > literal | num | id | Emod E | ELE] | Et 





key: integer; 

key mod 1999 图 6-3 源 语言 文法 

在 讨论 表达 式 以 前 ， 让 我 们 先 考虑 语言 中 的 类 型 。 语 言 本 身 有 两 种 基本 类 型 char 和 
integer， 第 三 种 基本 类 型 type_error 用 于 报错 。 为 简单 起 见 ， 我 们 假定 所 有 数组 的 下 标 都 从 1 


O “类似 于 第 10 章 讨论 的 数据 流 分 析 技 术 可 以 用 来 推断 i 是否 越界 。 但 是 没有 哪 种 技术 能 在 任何 情况 下 都 做 出 
正确 的 判断 。 
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开始 。 例 如 ， 


array [256] of char 


导致 类 型 表达 式 array (1..256, char)， 它 是 由 作用 于 子 界 1..256 和 类 型 char 上 的 构造 符 array 组 
成 的 。 同 在 Pascal 中 一 样 ， 声 明 中 的 前 缀 操作 符 + 建立 了 一 种 指针 类 型 ， 所 以 


t integer 


导致 类 型 表达 式 pointer (integer)， 它 是 由 作用 于 interger 类 型 上 的 构造 符 pointer 组 成 的 。 

在 图 6-4 的 翻译 模式 中 ， 和 产生 式 Did: 7 相关 联 的 动作 将 类 型 存 人 标识 符 的 符号 表 项 中 。 
动作 addtype (id.entry, T.type) 的 参数 为 综合 属性 entry ( 它 指 向 符号 表 中 的 id 表 项 ) 和 由 非 终 
结 符 了 的 综合 属性 type 表示 的 类 型 表达 式 。 

如 果 了 产生 char BX integer 类 型 ， 那 么 T.type 就 被 定义 为 char RM integer, WR TER 
组 ， 则 其 上 界 就 从 记号 num 的 属性 val 中 得 到 ， 它 给 出 num 所 代表 的 整数 。 假 定数 组 的 下 界 
为 1， 此 时 类 型 构造 符 array 被 应 用 在 子 界 1..num.val 和 相应 元 素 类 型 上 。 

在 P 一 D; E WAR, DEMRE E 之 前 ， 这 就 保证 了 所 有 已 声明 标识 符 的 类 型 在 E 所 产生 
的 表达 式 被 检查 之 前 都 已 被 保存 起 来 ( 见 第 5 章 )。 事 实 上 ， 通 过 适当 地 修改 图 6-3 中 的 文法 ， 
可 以 在 自 顶 向 下 或 自 底 向 上 的 语法 分 析 过 程 中 实现 本 节 的 翻译 模式 。 


P-D;E 
D~+~D;D 
D-id:T { addtype (id.entry, T.type) } 


T — char { T.type := char } 

T > integer { T.type := integer } 

T> tT, { T.type := pointer (T ,.type) } 

T > array [ num ] of T, { T.type := array(\..num.val, T,.type) } 








图 6-4 翻译 模式 中 保存 标识 符 类 型 的 部 分 
6.2.2 表达 式 的 类 型 检查 
在 下 面 的 规则 中 ,，E 的 综合 属性 type 定义 了 由 OE 所 产生 的 表达 式 的 类 型 表达 式 ( 由 类 型 
系统 分 配 )。 下 面 的 语义 规则 指出 由 记号 literal 和 num 表示 的 常量 分 别 具 有 类 型 char 和 


integer: 


E = literal { E.type := char } 
E > num { E.type := integer } 


我 们 使 用 函数 lookup(e) 取出 保存 在 由 e 所 指向 的 符号 表 项 中 的 类 型 。 当 标识 符 出 现在 表 
达 式 中 时 ， 从 符号 表 中 取出 其 类 型 并 赋 给 属性 ype: 


E > id { E.type := lookup (id.entry) } 


通过 将 mod 操作 符 应 用 于 两 个 类 型 为 integer 的 子 表 达 式 上 而 形成 的 表达 式 的 类 型 也 是 
infeger， 否 则 其 类 型 就 是 ppe_error。 规 则 如 下 : 
E > E, mod E, { E.type := if E,.type = integer and 


E,.type = integer then integer 
else type_error } 


对 于 数组 引用 Ei[E2]， 下 标 表 达 式 E 必须 为 integer 类 型 ， 此 时 ， 结 果 类 型 是 从 Ei 的 类 型 
array(s, t) 中 得 到 的 元 素 类 型 r 这 里 没有 用 到 数组 的 下 标 集合 s。 


iw 


228 B6F 





E> E [E] { E.type := if Ez.type = integer and 
E,.type = array(s, t) thenz 
else type_error } 

在 表达 式 中 ， 后 缀 操作 符 1 产 生 由 其 操作 数 所 指向 的 对 象 。E1 的 类 型 是 指针 E 所 指向 的 
对 象 的 类 型 1 : 

E->E,t { E.type := if E,.type = pointer(t) then t 

else type_error } 

至 于 通过 增加 产生 式 及 语义 规则 来 允许 表达 式 具 有 其 他 类 型 和 操作 的 问题 ， 我 们 留 给 读者 
去 完成 。 例 如 ， 为 允许 标识 符 具 有 boolean 类 型 ， 我 们 可 在 图 6-3 的 文法 中 引入 产生 式 T> 
boolean。 把 < 这 样 的 比较 操作 符 及 and 这 样 的 逻辑 操作 符 引 进 产 生 式 E， 即 可 构造 boolean 类 
型 的 表达 式 。 

6.2.3 语句 的 类 型 检查 

因为 像 语句 这 样 的 语言 结构 通常 都 没有 值 ， 因 而 可 以 为 其 分 配 特殊 的 基本 类 型 void。 如 果 
在 语句 中 发 现 错误 ， 则 为 其 分 配 类 型 type_error, 

我 们 考虑 的 语句 有 赋值 语句 、 条 件 语句 和 while 语句 ， 各 语句 之 间 用 分 号 隔 开 。 如 果 我 们 
定义 完整 程序 的 产生 式 为 PD; 8， 并 把 图 6-5 中 的 产生 式 并 人 图 6-3 的 产生 式 中 ， 则 程序 就 由 声 
明 及 其 后 的 语句 组 成 。 因 为 语句 中 可 以 含有 表达 式 ， 所 以 仍 需要 上 述 检查 表达 式 类 型 的 规则 。 


S-id:2E . := if id.type = E.type then void 
else type_error } 

S > if E then S, . := if E.type = boolean then S ,.type 
else type—error } 


S — while E do S, . := if E.type = boolean then S, .type 
else Dpe_error } 
S> S; 8, . :一 这 Si.ppe = void and 
S,.type = void then void 
else type_error } 





图 6-5 检查 语句 类 型 的 翻译 模式 


检查 语句 的 规则 如 图 6-5 所 示 。 第 一 条 规则 检查 赋值 语句 的 左边 和 右边 是 否 具有 相同 的 类 
型 。9 第 二 条 和 第 三 条 规则 指明 条 件 语句 和 while 语句 中 的 表达 式 必须 具有 boolean 类 型 。 错 
误 由 图 6-5 中 的 最 后 一 条 规则 来 传播 ， 因 为 只 有 当 每 个 子 语句 都 具有 void 类 型 时 ， 语 句 序 列 的 
类 型 才 是 void。 在 上 述 规则 中 ， 类 型 不 匹配 会 产生 type_error 类 型 。 当 然 ， 友 好 的 类 型 检查 器 
还 应 报告 类 型 不 匹配 的 性 质 及 其 位 置 。 

6.2.4 范 数 的 类 型 检查 
可 用 下 面 的 产生 式 来 产生 一 个 函数 : 
E>-E(E) 


其 中 ， 表 达 式 是 由 一 个 表达 式 作用 于 另 一 个 表达 式 而 形成 的 。 通 过 下 面 的 产生 式 和 动作 可 以 将 
类 型 表达 式 和 非 终结 符 了 关联 起 来 ， 进 而 扩充 了 规则 ， 使 得 声明 中 可 以 定义 函数 类 型 。 
7 了 ~ 了 72 { T.type := Ti.type = Ty.type } 


售 ” 如 果 表达 式 允许 出 现在 赋值 语句 的 左 部 ， 则 我 们 还 必须 区 分 左 值 和 右 值 。 例 如 ，1: -2 是 不 正确 的 ， 因 为 
常数 1 不 能 被 赋值 。 
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其 中 ， 箭 头 两 边 加 上 引号 是 为 了 将 它 和 用 作 产 生 式 元 符号 的 箭头 区 分 开 来 ， 它 表示 函数 构造 符 。 
函数 的 类 型 检查 规则 为 


E> E (E) { E.type := if Ey.type = s and 
Ei.type = s >t then t 
else type_error } 

这 一 规则 指出 ， 在 将 E 作用 于 E; 所 形成 的 表达 式 中 ， 书 的 类 型 必须 是 函数 类 型 sr, HP s 
AA OE, 的 类 型 ,1 为 某 一 值 域 类 型 EE) 的 类 型 是 t。 

许多 和 函数 的 类 型 检查 有 关 的 问题 可 以 应 用 上 述 简单 语法 进行 讨论 。 推 广 到 具有 多 个 参数 
的 函数 ， 可 以 通过 构造 参数 的 积 类 型 来 完成 。 注 意 ， 类 型 为 T, …, T 的 n 个 参数 可 以 看 作 类 
AT x … xT, 的 单个 参数 。 例 如 ， 可 以 用 


root : (real > real) x real 一 real (6-1) 


来 声明 函数 root. root 的 参数 是 一 个 返回 实数 的 函数 和 另 一 个 实数 ， 其 返回 值 也 是 实数 。 
这 个 声明 的 类 Pascal 语法 是 


function root (function f (real): real; x: real): real 
(6-1) 中 的 语法 将 函数 类 型 的 声明 同 其 参数 名 分 离开 来 。 
6.3 类 型 表达 式 的 等 价 


上 一 节 的 检查 规则 具有 如 下 形式 :“ 让 两 个 类 型 表达 式 相 等 then 返 回 一 个 特定 类 型 else 返 回 
fype_erroro” 因 而 精确 地 定义 何 时 两 个 类 型 表达 式 是 等 价 的 非常 重要 。 如 果 为 类 型 表达 式 命 名 
并 在 随后 的 类 型 表达 式 中 使 用 这 些 名 字 ， 就 会 出 现 潜在 的 二 义 性 。 关 键 问题 是 类 型 表达 式 中 的 
名 字 是 代表 它 自 己 还 是 代表 另 一 个 类 型 表达 式 的 缩写 。 

由 于 类 型 等 价 的 概念 和 类 型 表示 互相 影响 ， 所 以 我 们 将 二 者 放 在 一 起 讨论 。 为 了 提高 效率 ， 
编译 器 采用 了 能 快速 确定 类 型 等 价 的 表示 方法 。 由 特定 编译 器 实现 药 类 型 等 价 概念 通常 被 解释 
成 本 节 将 要 讨论 的 结构 等 价 和 名 字 等 价 。 我 们 将 根据 类 型 表达 式 的 图 形 表 示 来 展开 讨论 。 如 图 
6-2 所 示 ， 图 中 叶 节 点 表示 基本 类 型 和 类 型 名 ， 内 节点 表示 类 型 构造 符 。 正 如 我 们 将 要 看 到 的 ， 
如 果 名 字 被 看 成 是 类 型 表达 式 的 缩写 ， 则 递归 地 定义 的 类 型 将 导致 类 型 图 中 具有 环 路 。 

6.3.1 类 型 表达 式 的 结构 等 价 

只 要 类 型 表达 式 是 由 基本 类 型 和 类 型 构造 符 构 造 出 来 的 ， 则 两 个 类 型 表达 式 等 价 的 直观 想 
法 就 是 和 吉 构 的 等 价 ， 即 两 个 表达 式 或 者 是 相同 的 基本 类 型 ， 或 是 将 同样 的 类 型 构造 符 作用 于 结 
构 等 价 的 类 型 而 构成 的 。 也 就 是 说 ， 两 个 类 型 表达 式 是 结构 等 价 的 充分 必要 条 件 就 是 它们 完全 
相同 。 例 如 ， 类 型 表达 式 integer 只 与 类 型 integer 等 价 ， 因 为 它们 是 相同 的 基本 类 型 。 类 似 地 ， 
pointer(integer) 只 与 pointer(linteger) 等 价 ， 因 为 二 者 是 将 相同 的 构造 符 pointer 作用 于 等 价 的 类 
型 的 结果 。 如 果 我 们 使 用 算法 5.1 中 的 值 编号 方法 来 构造 类 型 表达 式 的 dag 表示 ， 则 相同 的 类 
型 表达 式 将 表示 为 同一 节点 。 

实际 上 ,为 了 反映 源 语言 的 实际 类 型 检查 规则 ， 常 常 需要 修改 结构 等 价 的 概念 。 例 如 ， 当 
传递 数组 变 元 时 ， 我 们 可 能 不 希望 将 数组 的 边界 也 作为 其 类 型 的 一 部 分 。 

为 测试 修改 后 的 等 价 概念 ， 我 们 可 以 修改 图 6-6 中 测试 结构 等 价 的 算法 。 假 定 类 型 构造 符 
只 有 数组 、 乘 积 、 指 针 和 函数 。 该 算法 递归 地 比较 类 型 表达 式 的 结构 而 不 检查 是 否 有 环 ， 因 此 ， 
可 以 将 其 用 于 类 型 表达 式 的 树 型 表示 或 dag 表示 。 相 同 的 类 型 表达 式 不 必用 dag 的 同一 节点 来 
表示 。 有 环 类 型 图 中 节点 的 结构 等 价 可 以 用 6.7 节 的 算法 来 测试 
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如 果 将 图 6-6 中 第 4 行 、 第 5 行 的 数组 等 价 测试 代码 重 写 为 


else if s = array(s,, S2) and ! = array(11, t2) then 
return sequiv (s2, t2) 








则 (1) function sequiv(s, t): boolean; 
begin 
s = array(S;, 52) (2) 证 s 和 :是 同样 的 基本 类 型 then 
t = array(t), t2) (3) return true 
(4) else if s = array(s,, $1) and t = array (t,, t2) then 
中 的 边界 S| 和 ty 可 以 被 忽略 。 (5) return sequiv(s,, 11) and sequiv(s,, t2) 
某 些 情况 下 ， 我 们 可 以 为 类 型 表 (6) else if s = sxXs, and ! =f, X£, then 
、 _ ， f (7) return sequiv(s,, 11) and sequiv(s,, t3) 
达 式 找到 一 种 比 类 型 图 紧凑 得 多 的 表 (8) else if s = pointer(s,) and t= pointer (t,) then 
示 方 法 。 在 下 例 中 ， 类 型 表达 式 中 的 “| O return sequiv (s1, 11) 
a —, a (10) else if s = s, > s, and? = 17, >t, then 
某 些 信 息 被 编码 成 一 个 二 进 制 位 序 an return sequiv(s,. n) and sequiv (Sy. t) 
列 ， 然后 可 以 将 其 解释 为 一 个 整数 。 else 
这 种 编码 用 不 同 的 整数 表示 结构 上 不 “| CID return fase 
en 
等 价 的 类 型 表达 式 。 可 以 先 通过 比较 
这 些 整数 来 测 出 结构 不 等 价 的 类 型 表 图 6-6 测试 两 个 类 型 表达 式 * 和 上 的 结构 等 价 


达 式 ， 只 有 当 这 些 整数 相同 时 才 应 用 图 6-6 的 算法 ， 这 样 能 加 速 结构 等 价 测 试 过 程 。 
例 6.1 本 例 中 的 类 型 表达 式 的 编码 来 自 D. M. Ritchie 所 编写 的 C 编译 器 。Johnson[1979] 
描述 的 C 编译 器 也 使 用 这 种 编码 。 
考 由 具有 如 下 指针 、 函 数 和 数组 类 型 构造 符 的 类 型 表达 式 : poiner) RRAN 上 的 指 
针 ，freturns(t) 表 示 返 回 类 型 为 t 的 对 象 的 函数 ，array(D 表 示 元 素 类 型 为 上 的 数组 ( 不 定 长 )。 
注意 ， 此 处 我 们 简化 了 数组 和 函数 的 类 型 构造 符 。 虽 然 我 们 将 跟踪 数组 元 素 的 个 数 ， 但 这 一 计 
数值 不 成 为 类 型 构造 符 array 的 一 部 分 。 类 似 地 ， 构 造 符 freturns 的 惟一 操作 数 是 函数 的 结果 
的 类 型 ， 函 数 参数 的 类 型 将 保存 在 其 他 地 方 。 所 以 ， 该 类 型 系统 中 结构 等 价 的 表达 式 在 将 图 
6-6 中 的 测试 应 用 于 更 详尽 的 类 型 系统 时 可 能 是 结构 不 等 价 的 。 
由 于 这 些 构造 符 都 是 一 元 操作 符 ， 将 这 些 构造 符 应 用 于 基本 类 型 上 所 形成 的 类 型 表达 式 就 
有 具有 统一 的 结构 。 这 种 类 型 表达 式 的 例子 如 下 : 
char 
freturns (char) 


pointer (freturns (char)) 
array (pointer (freturns (char))) 


使 用 一 种 简单 的 编码 方案 ， 上 面 的 每 个 表达 式 就 都 可 以 用 一 个 二 进 制 位 序列 来 表示 。 因 为 只 有 
三 个 类 型 构造 符 ， 所 以 使 用 两 位 即 可 为 一 个 构造 符 编码 ， 如 下 所 示 : 


类 型 构造 符 编码 
pointer 01 
array 10 
freturns 1l 
在 Johnson[1979] 中 ，C 的 基本 类 型 采用 4 位 编码 。 我 们 的 4 个 基本 类 型 编码 如 下 : 
基本 类 型 编码 
boolean 0000 
char 0001 
integer 0010 


real 0011 
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受 限 的 类 型 表达 式 现在 可 以 编码 成 二 进 制 位 序列 。 最 右边 4 位 是 基本 类 型 的 编码 。 从 右 向 
左 移 ， 接 下 来 的 两 位 是 应 用 于 基本 类 型 上 的 构造 符 编码 ， 再 下 两 位 是 再 次 应 用 的 构造 符 编码 ， 
依 此 类 推 。 举 例如 下 : 

类 型 表达 式 编码 
char 000000 0001 
freturns (char) 000011 0001 
pointer (freturns (char)) 000111 0001 
array (pointer (freturns (char))) 100111 0001 
更 详细 的 描述 参见 练习 6.12。 

除 节 省 空间 之 外 ， 这 种 表示 方法 还 能 反映 出 现在 任何 类 型 表达 式 中 的 构造 符 。 两 个 不 同 的 
二 进 制 序列 表示 不 同 的 类 型 , 因为 这 两 个 类 型 表达 式 要 么 是 基本 类 型 不 同 , 要 么 是 构造 符 不 同 。 
当然 ， 由 于 数组 的 大 小 和 函数 的 参数 没有 被 表示 出 来 ， 所 以 不 同 的 类 型 也 可 能 具有 相同 的 二 进 
制 序 列 。 

可 以 扩展 本 例 的 编码 以 包含 记录 类 型 。 其 思想 为 ,在 编码 中 将 每 个 记录 当 作 一 个 基本 类 型 ， 
而 记录 的 各 个 域 类 型 都 用 一 个 独立 的 二 进 制 序列 来 编码 。C 中 的 类 型 等 价 将 在 例 6.4 中 做 进 一 
步 研 究 。 口 
6.3.2 ”类 型 表达 式 的 名 字 

在 某 些 语言 中 可 以 给 类 型 命名 。 如 在 Pascal 程序 段 

type link = + cell; 

var next : link; 

last : link; (6-2) 

P : t cell; 

q, r : ft cell; . 
中 ， 标 识 符 1ink 被 声明 为 类 型 + ce11 的 名 字 。 此 时 会 出 现 这 样 的 问题 : 变量 next, last, 
p、9 和 r 的 类 型 相同 吗 ? 令 人 了 吃惊 的 是 ， 管 案 依 赖 于 具体 实现 。 这 一 问题 的 出 现 是 因为 当初 
的 Pascal 报告 中 没有 “相同 类 型 ”这 一 概念 。 

为 描述 这 种 情况 , 我 们 允许 对 类 型 表达 式 进行 命名 ,并 允许 这 些 名 字 出 现在 类 型 表达 式 中 ， 
而 在 此 之 前 类 型 表达 式 中 只 有 基本 类 型 。 例 如 ， 若 cell 是 一 个 类 型 表达 式 的 名 字 ， 那 么 
pointer(cel11) 也 是 类 型 表达 式 。 暂 时 假定 没有 循环 的 类 型 表达 式 定义 ， 即 不 会 将 cell 定义 为 
包含 cell 的 类 型 表达 式 的 名 字 。 

当 人 允许 类 型 表达 式 中 出 现 名 字 时 ， 将 伴随 出 现 类 型 表达 式 等 价 的 两 个 概念 ， 这 取决 于 如 何 
看 竺 名字。 名字 等 价 将 每 个 类 型 名 看 作 是 可 区 分 的 类 型 ， 所 以 两 个 类 型 表达 式 当 上 且 仅 当 名 字 完 
全 相同 时 才 是 名 字 等 价 的 。 而 在 结构 等 价 的 情况 下 ， 类 型 名 将 被 它们 所 定义 的 类 型 表达 式 所 代 
替 ， 所 以 ， 如 果 蔡 换 所 有 的 名 字 后 ， 两 个 类 型 表达 式 结构 上 等 价 ， 那 么 它们 就 是 结构 等 价 的 。 


例 6.2 ”下面 给 出 了 与 声明 (6-2) 中 各 个 变量 相关 联 的 类 型 表达 式 。 


变量 类 型 表达 式 
next link 
last link 
p pointer (cell) 
q pointer (cell) 


r pointer (cell) 


W 
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在 名 字 等 价 的 情况 下 ， 变 量 next 和 last 具有 相同 的 类 型 ， 因 为 它们 具有 相同 的 关联 类 型 表 
iA, BH. q Mr 也 具有 相同 的 类 型 BÆ p 和 next 类 型 不 同 ， 因 为 它们 的 关联 类 型 表 
达 式 不 同 。 在 结构 等 价 的 情况 下 ， 上 面 5 个 变量 具有 同样 的 类 型 AW link 是 类 型 表达 式 
pointer(cell WA Zo g 


各 种 不 同 的 语言 在 通过 声明 来 联系 标识 符 和 类 型 时 都 使 用 一 些 规则 ， 在 解释 这 些 规 则 时 ， 
结构 等 价 和 名 字 等 价 是 两 个 非常 有 用 的 概念 。 


例 6.3 由 于 在 Pascal 的 许多 实现 中 把 隐 式 类 型 名 和 每 个 声明 的 标识 符 联 系 起 来 ， 所 以 出 
现 了 混淆 。 如 果 声 明 中 包含 一 个 不 是 名 字 的 类 型 表达 式 ， 那 么 就 建立 一 个 隐 式 类 型 名 。 每 当 变 
量 声明 中 出 现 类 型 表达 式 时 ， 也 建立 一 个 新 的 隐 式 类 型 名 。 

于 是 ， 在 (6-2) 中 包含 p、q flr 的 两 个 声明 中 ， 将 为 类 型 表达 式 建立 隐 式 类 型 名 。 也 就 是 
说 ， 这 些 声 明 处 理 起 来 就 像 下 面 这 样 ; 


type link = + cell; 
np = f cell; 
nqr = f cell; 


var next : link; 
last : link; 


p : np; 
q > nqr; 
r : nqr; 


在 此 ， 引 入 了 新 的 类 型 名 np 和 nqr。 在 名 字 等 价 的 情况 下 ， 由 于 next 和 last 是 用 相同 的 
类 型 名 声明 的 ， 所 以 我 们 认为 它们 具有 等 价 的 类 型 。 同 样 ， 我 们 认为 q 和 z 也 具有 等 价 的 类 
型 ， 因 为 与 它们 相关 联 的 隐 式 类 型 名 相同 。 但 是 P、q 和 next 不 具有 等 价 的 类 型 ， 因 为 它们 
的 类 型 名 不 相同 。 

典型 的 实现 方法 是 构造 一 个 类 型 图 来 表示 类 型 。 每 当 遇 到 类 型 构造 符 或 基本 类 型 时 ， 就 建 


立 一 个 新 的 节点 ; 每 当 遇 到 新 的 关 型 名 时 ， net tase po ae 
就 建立 一 个 叶 节点 ， 并 同时 沁 下 该 名 字 所 引 OO o pomer sam 
用 的 那个 类 型 表达 式 。 用 这 种 表示 方法 ， 如 ~ “7 一 

果 两 个 类 型 表达 式 在 类 型 图 中 用 同一 节点 玫 ca 

示 ， 则 它们 等 价 。 图 6-7 给 出 了 声明 (6-2) 的 图 6.7 变量 和 类 型 图 中 节点 的 联系 

类 型 图 ， 其 中 虚线 表示 变量 和 类型 图 中 节点 的 联系 。 注 意 ， 类 型 名 coll 有 3 个 父 节 点 ， 它 们 
均 被 标记 为 poinier。 等 号 出 现在 类 型 名 Link 和 它 所 引用 的 类 型 图 节点 之 间 。 a 


6.3.3 类 型 表示 中 的 环 
链表 和 树 这 样 的 基本 数据 结构 通常 都 是 递归 定义 的 ， 如 链表 或 者 为 空 或 者 是 由 含有 指向 链 
表 指 针 的 单元 组 成 。 这 样 的 数据 结构 通常 用 记录 来 实现 ， 记 录 中 含有 指向 同类 型 记录 的 指针 。 
定义 这 样 的 记录 类 型 时 ， 类 型 名 起 着 重要 作用 。 | 
考虑 某 链 表 ， 它 的 每 个 单元 包含 某 些 整 型 信息 和 一 个 指向 表 中 下 一 单元 的 指针 。 链 和 单元 
对 应 的 类 型 名 的 Pascal 声明 如 下 : 
type link = + cell; 
cell = record 
info : integer; 
next : link 
end; 
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注意 ， 类 型 名 link 是 根据 cell 定义 的 ， 而 cell 又 是 根据 link 定义 的 ， 所 以 它们 是 递归 定义 的 。 

如 果 在 类 型 图 中 引 和 人 环 ， 则 递归 定义 中 的 类 型 名 就 可 以 被 替换 掉 。 如 果 用 pointer(cel1) 
替换 1ink， 则 将 得 到 图 6-8a 中 的 cell 类 型 表达 式 。 再 使 用 图 6-8b 中 的 环 ， 就 可 以 删除 该 类 
型 图 中 record 节点 下 出 现 的 cell. 


cell = record cell = record 


| 
WA ~ <A 入 、 
/A、\ /A\ A、 


info integer next poimer info integer next pointer 


cell 
a) b) 


图 6-8 递归 定义 的 类 型 名 cel1 







例 6.4 C 语言 通过 对 记录 以 外 的 其 他 类 型 使 用 结构 等 价 来 避免 在 类 型 图 中 出 现 环 。C 中 
cell 的 声明 为 ; 
struct cell { 
int info; 
struct cell «next; 
}; 
C 使 用 关键 字 struct 而 不 是 record, 而且 名 字 cell 成 为 该 记录 类 型 的 一 部 分 。 实 际 上 ， 
C 使 用 的 就 是 图 6-8a 中 的 无 环 表示 。 
C 语言 要 求 类 型 名 在 使 用 前 要 先 声 明 ， 但 在 定义 记录 中 的 指针 域 时 可 使 用 未 声明 的 记录 类 
型 。 因 此 ， 所 有 潜在 的 环 都 源 于 指向 记录 的 指针 。 由 于 记录 的 名 字 是 其 类 型 的 一 部 分 ， 此 时 进 
行 结构 等 价 的 测试 时 ， 若 遇 到 记录 构造 符 ， 那 么 被 比较 的 类 型 或 者 因为 它们 具有 同样 的 命名 记 
录 类 型 而 等 价 ， 或 者 不 等 价 。 口 


6.4 类 型 转换 


考虑 表达 式 x+i, Hx 是 实 型 ，i 是 整 型 。 因 为 整数 和 实数 在 计算 机 内 的 表示 不 同 ， 且 
相应 操作 的 机 器 指令 也 不 同 ， 因 此 对 于 上 述 加 法 ， 编 译 器 需 先 对 加 法 中 的 一 个 操作 数 进行 类 型 
转换 ， 使 得 两 个 操作 数 具有 相同 的 类 型 。 

语言 的 定义 会 指出 哪些 转换 是 必须 的 。 当 把 整数 赋 给 实 型 变量 (或 相反 ) 时 ， 应 将 赋值 号 
右边 对 象 的 类 型 转换 成 左边 对 象 的 类 型 。 在 表达 式 中 ， 通 常 的 转换 是 将 整数 变 为 实数 ， 然 后 在 
两 个 实 型 对 象 上 进行 实数 运算 。 可 以 使 用 类 型 检查 器 将 这 些 转 换 操作 插入 源 程序 的 中 间 表 示 中 。 
例如 ，x+i 的 后 缀 表示 可 能 如 下 : 


x i inttoreal real+ 


此 时 ，inttoreal 操作 符 先 将 i 从 整数 转换 成 实数 ,然后 reale 在 两 个 操作 数 上 执行 实数 加 。 

类 型 转换 还 常常 出 现在 男 一 种 情况 下 : 一 个 符号 在 不 同 的 上 下 文中 具有 不 同 的 含义 ， 我 
们 将 其 称 为 重 载 ， 下 一 节 将 对 重 载 进行 详细 讨论 ， 但 此 处 提 到 重 载 是 因为 类 型 转化 常常 伴随 
着 重 载 。 
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强制 类 型 转换 

如 果 类 型 转换 可 以 由 编译 器 自动 完成 ， 则 称 其 为 隐 式 转换 。 隐 式 类 型 转换 也 叫做 强制 类 型 
转换 。 许多 语言 要 求 隐 式 转换 不 丢失 信息 。 例 如 ， 整 数 可 以 转换 成 实数 ， 反 之 却 不 能 。 事 实 上 ， 
即使 当 实数 转换 成 相同 位 数 的 整数 时 ， 也 可 能 发 生 信息 的 丢失 。 

相反 ， 如 果 转 换 必 须 由 程序 员 写 出 ， 则 称 为 显 式 转换 。 实 际 上 ，Ada 中 的 所 有 转换 都 是 显 
式 的 。 对 类 型 检查 器 而 言 ， 显 式 转换 就 像 是 函数 应 用 ， 因 而 不 会 导致 新 问题 。 

例如 ， 在 Pascal F, A Bea ord 把 字符 映射 为 整数 ， 函 数 chr 则 把 整数 映射 为 字符 ， 
因此 这 些 转换 都 是 显 式 的 。 而 在 C 语言 的 算术 表达 式 中 ，ASCII 字符 会 被 强制 转换 ( 即 隐 式 转 
换 ) 为 0 到 127 之 间 的 整数 。 


例 6.5 考虑 把 算术 运算 符 op 作用 在 常数 和 标识 符 上 所 形成 的 表达 式 ， 如 图 6-9 所 示 的 文 
法 。 假 没有 两 种 类 型 ， 整 型 和 实 型 ， 必 要 时 可 以 将 整数 转换 为 实数 。 非 终结 符 E 的 属性 type 
可 以 是 integer 也 可 以 是 real， 类 型 检查 规则 如 图 6-9 所 示 。 如 同 6.2 节 那样 ， 函 数 lookup(e) 返 回 
保存 在 e 所 指向 的 符号 表 项 中 的 类 型 。 E 





产生 式 


E 一 num 







语义 规则 


integer 





E. type 
E. type 
E. type 
E. type 


E > num. num real 
E > id 


E = E op£, 


lookup (id entry) 

if E,.type = integer and E,.type = integer 
then integer 

else if El.type = integer and E,.type = real 


then real 

else if E,.type = real and E,.type = integer 
then real 

else if E,.type = real and E,.type = real 
then real 


else typeerror 


图 6-9 从 整 型 到 实 型 强制 类 型 转换 的 类 型 检查 规则 
常数 的 隐 式 转换 通常 在 编译 时 即 可 完成 ， 从 而 可 以 大 大 缩短 目标 程序 的 运行 时 间 。 在 下 面 
的 代码 段 中 ，x 是 一 个 实 型 数组 ， 而 且 所 有 的 元 素 均 被 初始 化 为 1。 用 某 种 Pascal 编译 器 编译 
Ja, Bentley[1982] 发 现 执行 代码 段 





for I := 1 to N do XI] := 1 
需要 48.4N 微 秒 ， 而 执行 代码 段 
for I := 1 to N do X[I] := 1.0 


需要 5.4N 微 秒 。 两 个 程序 段 都 是 把 1 赋 给 实 型 数组 的 元 素 。 但 第 一 个 代码 段 的 目标 代码 
( 由 编译 器 产生 ) 包含 将 整数 1 转化 为 实数 表示 的 运行 时 例 程 调用 ， 所 以 更 耗 时 。 由 于 在 编译 时 
就 知道 x 是 一 个 实 型 数组 ， 所 以 更 彻底 的 编译 器 应 在 编译 时 就 将 1 转化 成 1.0。 


65 函数 和 运算 符 的 重 载 


在 不 同 的 上 下 文中 具有 不 同 含义 的 符号 称 为 重 载 符号 。 在 数学 中 ， 加 法 运算 符 + 就 是 重 载 
符号 ， 因 为 当 4 和 8B 分 别 是 整数 、 实 数 、 复 数 或 矩阵 时 ，4+8 中 的 + 具有 不 同 的 含义 。 在 Ada 
语言 中 ， 括 号 ( ) 是 重 载 符号 ， 表 达 式 ACT) 可 能 是 数组 A 的 第 I 个 元 素 ， 也 可 能 是 用 参数 I 
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来 调用 函数 A&， 或 者 是 表达 式 1 到 类 型 A 的 显 式 转换 。 

如 果 重 载 符号 每 次 出 现 都 能 确定 其 惟一 的 含义 ， 则 称 该 重 载 是 可 解 的 。 例 如 ， 如 果 + 既 可 
以 表示 整数 加 也 可 以 表示 实数 加 ， 则 在 表达 式 x+ (145) 中 两 次 出 现 的 + 就 可 以 表示 不 同形 式 的 
加 ， 这 将 取决 于 x、i 和 j 的 类 型 。 重 载 的 解 有 时 也 称 为 操作 符 的 识别 ， 因 为 它 是 要 确定 操作 
符 究 竟 表 示 哪 一 种 操作 。 

在 大 多 数 语言 中 ， 算 术 运 算 符 都 是 重 载 符号 。 但 是 ， 像 + 这 样 的 算术 操作 符 的 重 载 只 要 察 
看 其 操作 数 即 可 解决 。 如 何 确 定 是 使 用 整数 加 还 是 使 用 实数 加 有 点 类 似 于 图 6-9 中 EE, op E: 
的 语义 规则 ， 即 E 的 类 型 是 通过 察看 E 和 E 的 可 能 类 型 来 确定 的 。 
6.5.1 子 表达 式 的 可 能 类 型 的 集合 

正如 下 例 所 示 ， 仅 仅 通 过 查看 函数 的 参数 并 不 总 能 解决 重 载 。 一 个 子 表达 式 对 应 一 个 可 能 
类 型 的 集合 ， 而 不 只 是 一 个 类 型 。 在 Ada 中 ， 上 下 文 必须 提供 足够 的 信息 来 缩小 这 一 集合 ， 
最 终 成 为 单个 类 型 。 


例 6.6 在 Ada 中 ， 操 作 符 * 的 一 个 标准 〈 即 内 部 定义 ) 解释 是 一 个 从 一 对 整数 到 一 个 整 
数 的 函数 。 通 过 加 入 下 面 的 声明 ， 该 操作 符 即 可 重 载 : 


function "+" ( i, j : integer ) return complex; 
function "+" ( x, y : complex ) return complex; 
此 时 * 可 能 的 类 型 包括 : 


integer X integer 一 integer 

integer X integer 一 complex 

complex X complex > complex 
如 果 2、3 和 5 可 能 的 类 型 只 能 是 整 型 ， 那 么 对 于 上 述 声 明 ， 子 表达 式 3*5 可 能 是 整 型 或 复 
型 ， 这 取决 于 具体 的 上 下 文 。 如 果 完整 的 表达 式 是 2* (3*5) ， 那 么 3*5 就 是 整 型 ， 因 为 * 的 两 
个 操作 数 要 么 都 是 整 型 ， 要 么 都 是 复 型 。 另 一 方面 ， 如 果 完 整 的 表达 式 是 (3*5)*z， 而 且 z 


被 声明 为 复 型 ， 那 么 3x 5 就 是 复 型 。 口 
在 6.2 节 中 ， 我 们 假定 每 个 表达 式 只 有 惟一 的 类 型 ， 所 以 函数 的 类 型 检查 规则 就 是 : 
E =E, (Ez) { E.type := if E.type = s and 


E,.type = s > t then t 
else type_error } 
图 6-10 中 将 这 一 规则 推广 到 类 型 集合 。 图 中 只 有 函数 运算 ， 表 达 式 中 其 他 把 作 符 的 检查 规则 是 
类 似 的 。 重 载 标识 符 可 能 有 多 个 声明 ， 所 以 我 们 假定 符号 表 表 项 中 可 能 包含 可 能 类 型 的 集合 ， 
该 集合 由 lookup 函数 返回 。 文 法 开始 非 终 结 符 E 产生 完整 的 表达 式 ， 它 的 作用 在 下 面 说 明 。 













语义 规则 

E' .types := E.types 

E.. types lookup (id. entry) 
E. types {1 | {tl Ex. types 中 存在 一 个 , 
使 得 sor 属于 E. types } 


图 6-10 确定 表达 式 的 可 能 类 型 的 集合 


如 果 用 自然 语言 叙述 的 话 ， 图 6-10 的 第 三 条 规则 可 以 氢 述 为 : MR s 是 书 的 一 个 类 型 ， 并 
E E 的 某 个 类 型 能 把 * 映射 到 1， 那么 1 就 是 EVE) 的 一 个 类 型 。 函 数 的 类 型 不 匹配 会 导致 集 





E > id 
E-E,(E,) 


ww 
N 
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A Eppes 为 空 ， 我 们 暂且 将 其 作为 通知 类 型 错误 的 条 件 。 


例 6.7 本 例 除 了 解释 图 6-10 以 外 ， 还 说 明了 如 何 将 该 方法 推广 到 其 他 结构 中 。 特别 是 ; 
考虑 表达 式 3*5， 令 操作 符 * 的 声明 如 例 6.6， 即 根据 上 下 文 * 可 以 把 一 对 整数 映射 到 一 个 整数 


或 一 个 复数 。 子 表达 式 3*5 的 可 能 类 型 的 集 E: {i,c} ~ 

合 如 图 6-11 所 示 ， 其 中 和 < 分 别 是 integer E {i} | E: ti 

和 complex 的 缩写 。 3: (i * 5: {i}. 
再 次 假设 3 和 5 的 惟一 可 能 类 型 为 integers 人 

因此 运算 符 * 应 用 于 一 对 束 数 。 如 果 我 们 将 这 图 6-11 表达 式 345 的 可 能 类 型 的 集合 


对 整数 看 作 一 个 单元 ， 那 么 其 类 型 为 integer x integer, 在 * 的 类 型 的 集合 中 有 两 个 作用 于 一 对 整 
数 的 函数 ， 其 中 一 个 返回 整数 ， 另 一 个 返回 复数 ; ARAMA: integer 和 complex. O 
6.5.2 缩小 可 能 类 型 的 集合 1 

Ada 要 求 一 个 完整 的 表达 式 只 有 惟一 的 类 型 。 我 们 可 以 根据 上 下 文 来 确定 惟一 的 类 型 ， 
从 而 缩小 每 个 子 表达 式 的 类 型 选择 范围 。 如 果 该 过 程 不 能 使 每 个 子 表达 式 的 类 型 惟一 ， 就 宣布 
该 表达 式 中 存在 类 型 错误 。 

在 自 顶 向 下 地 分 析 表 达 式 之 前 ， 先 仔细 察看 图 6-10 的 规则 所 构造 的 E.types 集合 。 可 以 证 
明 Eppes 中 的 每 个 类 型 : 都 是 一 个 可 行 的 类 型 ， 即 可 以 适当 地 选择 E 中 标识 符 的 重 载 类 型 以 
使 E 获得 类 型 !r。 由 于 id. ype 的 每 个 元 素 都 是 可 行 的 ， 所 以 标识 符 的 声明 满足 这 一 性 质 。 应 
HBAS, AIR EO EEDI} E.types 中 的 类 型 [。 根 据 图 6-10 中 的 函数 规则 ， 对 某 个 类 型 *，s - 
必须 在 Ez.types 中 ， 并 且 类 型 sor 必须 在 Ei.types P, 根据 归纳 可 知 ，s 和 sr 分 别 是 ED 和 
El, 的 可 行 类 型 ， 从 而 1 就 是 EE 的 可 行 类 型 。 

可 能 存在 多 种 达到 同一 可 行 类 型 的 方法 。 例 如 ， 考 虑 表达 式 fix), BH 上 可 以 具有 类 型 
arc 和 bc，x 可 以 具有 类 型 a 和 4b。 那 么 ，f (x) 具有 类 型 c， 而 x 却 有 两 种 可 能 的 类 型 a 或 b。 

将 图 6-10 的 语法 制导 定义 加 上 确定 E 继承 属性 unique 的 语义 规则 可 以 得 到 图 6-12 的 语法 制 
导 定 义 。E 的 综合 属性 code 将 在 以 后 讨论 。 








语义 规则 













E +E E' types := E.types 
E.unique := if E' types = {t} then ¢ else type_errar 
E' .code := E.code 
E ~ id E.types := lookup (id.entry) 
E.code := gen(id.lexeme ':' E. unique) 
E >E (E) E.types := {5s | {Ez. types 中 存在 一 个 s， 


使 得 s 一 5s' 在 Ei.types 中 } 


t E. unique 


S := {5 | scE,.rypes and s >t£E, types } 
E,.unique := if S = {s} then s else type_error 
El.unique := if S = {s} then s >r else npe_error 


E.code := E,.code | E,.code || gen(‘apply’ ':’ E.unique) 
图 6-12 缩小 表达 式 的 类 型 的 集合 
因为 已 产生 了 整个 表达 式 ， 所 以 我 们 希望 E'.types 是 一 个 包含 单个 类 型 t 的 集合 。 这 个 惟 
一 的 类 型 将 由 E.unique 继承 。 基 本 类 型 type_error 仍然 用 来 报错 。 
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如 果 函 数 E.(E2) 返 回 类 型 +， 我 们 就 可 以 找到 类 型 *， 它 对 变 元 E, ITR, (BY, sr 
对 该 函数 是 可 行 的 。 图 6-12 中 的 语义 规则 中 出 现 的 集合 5 就 是 用 来 检查 是 否 存 在 惟一 的 类 型 * 
满足 这 一 性 质 的 。 

通过 对 表达 式 语 法 树 的 两 次 深度 优先 遍历 即 可 实现 图 6-12 中 的 语法 制导 定义 。 第 一 次 遍历 
时 ， 属 性 types 自 底 向 上 综合 。 第 二 次 遍历 时 ， 属 性 unique 自 顶 向 下 传播 ， 而 且 当 我 们 从 节点 
返回 时 ， 可 以 综合 出 code 属性 。 在 实际 应 用 中 ， 类 型 检查 器 可 以 简单 地 将 一 个 惟一 的 类 型 附 
加 到 语法 树 的 每 个 节点 上 。 在 图 6-12 中 ， 我 们 生成 后 缀 表示 以 说 明 中 间 代 码 是 如 何 生成 的 。 在 
BARR, BR gen 将 一 个 类 型 附加 到 每 个 标识 符 以 及 apply 操作 符 的 实例 上 。 


6.6 多 态 函 数 


普通 函数 执行 时 ,其 函数 体 中 各 语句 的 变 元 必须 是 固定 类 型 ， 而 对 于 多 态 函 数 ， 每 次 执行 
时 ， 函 数 体 中 语句 的 变 元 可 以 是 不 同 的 类 型 。 "多 态 ” 这 一 概念 也 可 用 在 使 用 不 同类 型 变 元 执 
行 的 代码 段 上 ， 因 此 既 存 在 多 态 函 数 ， 也 存在 多 态 运 算 符 。 

索引 数组 、 应 用 函数 和 操纵 指针 等 内 置 的 运算 符 通常 都 是 多 态 的 ， 因 为 它们 并 不 仅仅 限于 
特定 的 类 型 。 例 如 ，C 语言 参考 于 册 中 关于 指针 运算 & 的 说 明 是 :“ 如 果 操 作 数 的 类 型 是 “…”， 
那么 结果 的 类 型 为 指向 “…” 的 指针 。” 因 为 “…” 可 以 代表 任何 类 型 ， 所 以 C 语言 的 & 运算 
符 是 多 态 的 。 

在 Ada 中 ,“ 类 属 ” 函 数 也 是 多 态 的 ,但 Ada 对 多 态 性 进行 了 限制 。 因 为 “类 属 ” 还 被 用 
来 表示 重 载 函数 以 及 对 函数 变 元 的 强制 类 型 转换 ， 所 以 我 们 将 避免 使 用 该 术语 。 

本 节 旨 在 解决 为 带 有 多 态 函 数 的 语言 设计 类 型 检查 器 时 存在 的 问题 。 为 处 理 多 态 性 ， 我 们 
扩展 了 类 型 表达 式 的 集合 ， 使 其 包括 带 有 类 型 变量 的 表达 式 。 类 型 变量 的 引 和 产生 了 一 些 与 类 
型 表达 式 等 价 有 关 的 算法 问题 。 

6.6.1 为 什么 要 使 用 多 态 函 数 

多 态 函 数 便 于 实现 那些 操作 数据 结构 但 不 必 考 虑 其 成 员 类 型 的 算法 。 例 如, 使 用 多 态 函 数 ， 
不 必 了 解 列 表 中 元 素 的 具体 类 型 即 可 很 容易 地 写 出 求 列 表 长 度 的 程序 。 

像 Pascal 这 样 的 语言 要 求 对 函数 变 元 的 类 型 给 出 完整 的 说 明 ， 因 此 计算 整数 链表 长 度 的 函 
数 不 能 用 于 实数 链表 。 图 6-13 是 求 整 数列 表 长 度 的 Pascal 代码 。 函 数 length 顺 着 链表 的 
next 链 前 进 ， 直 至 遇 到 nil 链 为 止 。 type link 
尽管 函数 代码 不 以 任何 方式 依赖 于 表 cell 





1 cell; 
record 


info: integer; 


中 单元 信息 的 类 型 ， 但 Pascal 要 求 在 
编写 函数 length MW, 必须 声明 
info 域 的 类 型 。 

在 带 有 多 态 函 数 的 语言 中 ， 如 
ML(Milner[1984])， 我 们 可 以 重 写 函 数 
length ,使 之 适用 于 任何 类 型 的 列表 ， 
如 图 6-14 所 示 。 关 键 字 fun 表示 
length 是 一 个 递归 函数 。 函 数 nul1 
A tl 是 预定 义 的 ，null WAKES 
AZ, mtl 返回 删除 第 一 个 元 素 后 
剩 下 的 列表 。 按 照 图 6-14 所 示 的 定义 ， 


next: link 
end; 


function length ( lptr : 
var len 
begin 
len : 0; 
while lptr <> nil do begin 
len := len + 1; 
lptr := lptrf.next 
end; 
length := len 
end; 


link ) : integer; 


: integer; 








图 6-13 求 列 表 长 度 的 Pascal 程序 
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以 下 两 次 对 函数 Length 的 调用 都 输出 3: 


fun length(lptr) = 





length(["sun", "mon", "tue"]); if null(lptr) then 0 
length([10,9,8]); else length(tl(lptr)) + 1; 
第 一 次 调用 中 ，length 作用 于 字符 串 列 表 ， 图 6-14 求 列表 长 度 的 ML 程序 
第 二 次 调用 中 则 作用 于 整数 列表 。 
6.6.2 类 型 变量 


表示 类 型 表达 式 的 变量 允许 我 们 对 未 知 类 型 进行 讨论 。 在 本 节 剩 下 的 部 分 中 ， 我 们 采用 和 希 
腊 字 母 a，B，… 来 表示 类 型 表达 式 中 的 类 型 变量 。 

在 不 要 求 标识 符 先 声明 后 引用 的 语言 中 ， 类 型 变量 的 一 个 重要 应 用 就 是 检查 标识 符 引 用 的 
一 致 性 。 类 型 变量 代表 未 声明 的 标识 符 的 类 型 。 我 们 可 以 通过 查看 程序 来 获得 未 声明 的 标识 符 
的 引用 情况 。 如 果 在 某 条 语句 中 它 被 用 作 整 型 ， 而 在 另 一 语句 中 又 被 用 作 数 组 ， 就 可 以 报告 发 
生 了 引用 不 一 致 的 错误 。 相 反 ， 如 果 变 量 总 被 用 作 整 型 ， 则 在 保证 引用 一 致 性 的 同时 ， 也 能 推 
断 出 其 类 型 必定 是 整 型 。 

通过 引用 方式 来 确定 一 个 语言 结构 的 类 型 的 问题 称 为 类 型 推断 。 这 一 术语 常 被 用 来 描述 从 
函数 体 推断 函数 类 型 的 问题 。 

例 6.8 ”类 型 推断 技术 可 用 于 C 语言 及 Pascal 语言 等 ， 在 编译 时 填充 程序 中 缺少 的 类 型 信 
息 。 图 6-15 中 的 代码 段 给 出 了 一 个 过 


: 参 As 
fi mlist, HB p 也 是 过程。 procedure mlist ( lptr : link; procedure p ) ; 
通过 观察 过 程 ml i st 的 第 一 行 ， 我 begin 


type link fcell; 


们 只 知道 p 是 一 个 过 程 ， 而 不 能 确定 anneal 2 nil do begin 
pp 的 参数 个 数 和 类 型 。C 和 Pascal 参 , 


lptr := lptrt.next 


考 手册 都 允许 这 种 不 完整 的 类 型 声明 。 
WH mlist 将 参数 p 作用 于 链 

表 的 每 个 单元 。 例 如 ，p 可 用 于 给 链 图 6-15 带 过 程 参 数 p 的 过 程 miist 

表单 元 中 的 整 型 变量 置 初 值 或 打印 这 些 整 型 值 。 尽 管 没 有 指明 参数 p 的 具体 类 型 ， 但 是 从 表达 

式 pllptr) P p 的 使 用 方式 我 们 可 以 推断 出 p 的 类 型 必定 是 : 





link > void 
对 mlist 的 任何 调用 ， 如 果 过 程 参数 p 不 是 这 种 类 型 ， 就 报错 。 我 们 可 以 将 过 程 看 成 是 无 返 
回 值 的 函数 ， 所 以 其 结果 类 型 就 是 void。 口 


类 型 推断 技术 和 类 型 检查 技术 有 很 多 共同 点 。 两 种 情况 都 要 处 理 包含 类 型 变量 的 类 型 表达 


式 。 类 型 检查 器 可 以 用 下 例 的 推断 原理 来 推断 变量 所 代表 的 类 型 ， 这 一 应 用 将 在 本 节 的 后 续 部 
分 描述 。 


例 6.9 我 们 可 以 推断 出 下 面 的 伪 码 程序 中 多 态 函 数 deref 的 类 型 。 函 数 deref 5 
Pascal 中 的 解除 指针 操作 符 1 具有 相同 的 作用 。 


function deref(p); 
begin 

return pî 
end; 


遇 到 第 一 行 代码 
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function deref(p); 


时 ， 我 们 对 p 的 类 型 一 无 所 知 ， 所 以 让 我 们 用 类 型 变量 B KERRAN, WREX, 后缀 操 
作 符 + 作用 在 一 个 指向 对 象 的 指针 上 ， 并 返回 该 对 象 。 因 为 + 操作 符 在 表达 式 pt 中 作用 于 p 
上 ， 所 以 p 必定 是 指向 某 未 知 类 型 a 的 指针 ， 于 是 我 们 得 到 


= pointer(a) 


Et, o 是 另 一 个 类 型 变量 。 此 外 ， 表 达 式 pt 具有 类 型 wx， 因此 函数 deref 的 类 型 的 类 型 表 
达 式 可 以 写成 


对 任何 类 型 a，pointer (a) >a (6-3) 口 


6.6.3 包含 多 态 函 数 的 语言 

到 目前 为 止 , 我 们 所 说 的 多 态 函 数 是 指 该 函数 在 多 次 执行 时 , 其 参数 可 具有 “不 同 的 类 型 ”。 
关于 多 态 函 数 可 作用 的 类 型 的 集合 ， 我 们 可 以 用 符号 Y 来 表达 其 精确 定义 ,符号 v 意 即 “对 
任何 类 型 ”。 所 以 ， 例 6.9 中 函数 deref 的 类 型 表达 式 可 以 写成 : 

Va. pointer(a) > a (6-4) 
图 6-14 中 的 多 态 函 数 length 作用 于 元 素 为 任何 类 型 的 列表 ， 并 返回 一 个 整数 ， 所 以 其 类 型 表 
达 式 可 以 写成 

Va. list(a) = integer (6-5) 


这 里 list 是 一 个 类 型 构造 符 。 如 果 不 用 符号 Y， 就 只 能 给 出 length 定义 域 类 型 的 可 能 取 值 以 
及 值 域 类 型 的 可 能 取 值 ， 如 ; 


list (integer) 一 integer 
list (list(char)) — integer 
像 (6-5) 这 样 的 类 型 表达 式 是 我 们 能 够 对 多 态 函 数 类 型 做 出 的 最 一 般 描 述 。 
符号 Y 称 为 全 称 量 词 ， 它 所 作用 的 类 型 变量 称 为 由 它 约束 的 。 约 束 变 量 可 以 任意 换 名 ， 
只 要 所 有 出 现 该 变量 的 地 方 都 换 成 相应 的 名 称 即 可 。 


所 以 ， 类 型 表达 式 P-+D;E 
D>D;D | id:Q 
Vy. pointer(y) > Y Q — W type_variable .0 | T 
7 一 T 
等 价 于 (6-4)。 通 常 含有 符号 V 的 类 型 表达 式 可 以 非 正 BETE 
式 地 称 为 “多 态 类 型 "。 | unary_constructor ( T ) 
、 vgs oe | basic_type 
我 们 用 于 检查 多 态 函 数 的 语言 是 由 图 6-16 中 的 文 | type_variable 
法 产生 的 。 | CT) ua 
E>E(E E, E 
该 文法 产生 的 程序 是 由 一 系列 声明 和 要 被 检查 的 el 
表达 式 E 组 成 的 。 例 如 ， 图 6-16 带 有 多 态 驴 数 的 语言 的 文法 
deref : Va. pointer(a) > a; 
q : pointer (pointer (integer)) ; (6-6) 
deref(deref(q) ) 


为 简化 问题 ， 我 们 用 非 终 结 符 了 来 直接 产生 类 型 表达 式 。 构 造 符 一 形成 函数 类 型 ，x 形 成 乘积 
类 型 。unary_constructor 所 表示 的 一 元 构造 符 允 许 写 出 形 如 pointer (integer) 和 list (integer) 
的 类 型 。 括 号 只 是 用 来 组 合 类 型 。 用 于 产生 被 检查 表达 式 的 语法 很 简单 : 它们 可 以 是 标识 符 、 





l 
367 


w 
load 
© 


240 BOF 


组 成 元 组 的 表达 式 序 列 或 者 作用 在 变 元 上 的 函数 。 

多 态 函 数 的 类 型 检查 规则 与 6.2 节 中 普通 函数 的 类 型 检查 规则 存在 3 个 方面 的 区 别 。 我 们 首 
先 用 程序 (6-6) 中 的 表达 式 deref (deref (q) ) 来 说 明 这 些 区 别 ， 然 后 给 出 类 型 检查 规则 。 该 
表达 式 的 语法 树 如 图 6-17 所 示 。 其 中 每 个 节点 附带 两 个 标号 ， 第 一 个 标号 指出 该 节点 所 代表 的 
TRAR, 第 二 个 标号 是 分 配给 该 子 表 达 式 的 类 型 表达 式 。 下 标 i Mo 分 别 用 来 区 分 括号 内 出 
现 的 deref 和 括号 外 出 现 的 deref。 


apply : a, 
deref, : pointer(a,) > œ, apply : a; 
deref,; : pointer(a;) > a; q : pointer (pointer (integer )) 


图 6-17 deref (deref (q) ) 的 带 标号 的 语法 树 


多 态 函 数 的 类 型 检查 规则 和 普通 函数 的 类 型 检查 规则 存在 如 下 区 别 : 

1. 多 态 函 数 在 同一 表达 式 中 的 不 同 地 方 出 现 ， 其 变 元 类 型 不 必 相 同 。 在 表达 式 deref。 
(deref; (qa) ) 中 ，derefi 删 除了 对 指针 的 一 级 间接 访问 ， 所 以 deref, 和 deref; 作 用 在 不 同类 
型 的 变 元 上 。 这 一 性 质 的 实现 基于 对 Vo 的 解释 ， 即 “对 任意 类 型 a”, deref 的 每 次 出 现 对 
(6-4) 中 的 约束 变量 a 代表 什么 类 型 都 可 以 有 不 同 的 解释 。 所 以 我 们 为 deref 的 每 次 出 现 分 配 一 
个 类 型 表达 式 ， 该 类 型 表达 式 是 用 新 的 类 型 变量 代替 (6-4) 中 的 w， 并 删除 全 称 量词 V 而 形成 的 。 
在 图 6-17 中 ， 新 类 型 变量 o 和 ww 分 别 用 在 分 配给 Geref 的 内 部 出 现 和 外 部 出 现 的 类 型 表达 式 中 。 

2. 因为 变量 可 以 出 现在 类 型 表达 式 中 ， 所 以 我 们 必须 重新 检查 类 型 等 价 的 概念 。 假 如 类 型 
为 "一 8 WE 作用 于 类 型 为 上 的 E, 上， 我 们 必须 将 它们 “ 合 一 ”"， 而 不 是 简单 地 确定 s 和 + 的 
等 价 性 。 合 一 的 非 形 式 化 定义 如 下 : 通过 将 s 和 上 中 的 类 型 变量 用 类 型 表达 式 来 代替 ， 我 们 才 
能 确定 s 和 上 是 否 结构 等 价 。 如 图 6-17 中 标记 为 apply 的 内 节点 ， 如 果 oi 被 pointer (integer) 代 
替 ， 则 等 式 

pointer(a;) = pointer (pointer (integer)) 

成 立 。 

3. 我 们 需要 定义 一 种 方法 来 记录 两 个 表达 式 合 一 的 结果 。 通 常 ， 一 个 类 型 变量 可 以 出 现在 
多 个 类 型 表达 式 中 ， 如 果 hs 的 合 一 导致 变量 a 代表 类 型 ， 那么 在 类 型 检查 过 程 中 ，a 必 
须 继续 代表 类 型 1。 例 如 ， 在 图 6-17 中 ，Q; 是 deref, 的 值 域 类 型 ， 因 此 我 们 可 以 用 它 来 代表 
deref; (q) 的 类 型 。 于 是 , 将 deref; 的 定义 域 类 型 和 a 的 类 型 合 一 会 影响 标记 为 apply 的 内 
节点 的 类 型 表达 式 。 图 6-17 中 的 另 一 个 类 型 变量 oo 代表 integer. 

6.6.4 代 换 、 实 例 和 合 一 

通过 定义 一 个 称 为 代 摘 的 从 类 型 变量 到 类 型 表达 式 的 映射 ， 我 们 可 以 将 变量 所 代表 的 类 型 
信息 形式 化 。 下 面 的 递归 函数 subs) 可 以 精确 地 应 用 代 换 5 来 蔡 换 表 达 式 t 中 的 所 有 类 型 变 
E. 通常， 我 们 用 函数 类 型 构造 符 作为 “典型 ”构造 符 。 


function subst(t : type_expression) : typeexpression, 
in 
if :是 基本 类 型 then return 1 
else if :是 变量 then return 5() 
else if +, then return subst(t))—>subst(t) 
end 
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为 方便 起 见 ， 我 们 用 SO 来 表示 将 subst 作用 于 1 后 所 得 到 的 结果 类 型 表达 式 ，3(D 称 为 t 
的 实例 。 如 果 代 换 5 没有 为 变量 o 指定 相应 的 表达 式 ， 那 么 我 们 假定 S(O) BE oa, Bl $ 是 这 
种 变量 上 的 恒 等 映 射 。 


例 6.10 在 下 面 的 示例 中 ， 我们 用 s < 上 表示 * 是 1 的 实例 ; 


pointer (integer) < pointer(a) 
pointer (real) < pointer(a) 
integer > integer < a >a 
pointer(a) < B 


a< 8 
但 是 ， 对 于 下 面 的 示例 ， 左 边 的 类 型 表达 式 不 是 右边 类 型 表达 式 的 实例 (原因 列 在 旁边 ): 
integer real 代 换 不 能 用 于 基本 类 型 
integer > real a 一 Q Qa 的 代 换 不 一 致 
integer >a a> Oo HATA BEAR yA 口 


如 果 存 在 某 个 代 换 S$， 使 得 S(t) = S(t), AA ti 和 就 能 合 一 。 实 际 上 ， 我 们 感 兴趣 的 是 
最 一 般 的 合 一 代 换 ， 它 是 对 表达 式 中 的 变量 限制 最 少 的 代 换 。 更 精确 地 说 ， 表 达 式 ti Mp 最 一 
般 的 合 一 代 换 是 具有 如 下 性 质 的 代 换 S: 

1. S(t) = S(t), FFA 

2. 对 任何 其 他 满足 8 (1) = 8 (2) 的 代 换 8 ， 代 换 是 5 的 实例 即 对 任何 1:，S' (0 是 SG 
的 实例 )。 

以 后 我 们 所 说 的 合 一 都 是 指 最 一 般 的 合 一 代 换 。 
6.6.5 多 态 函 数 的 检查 

检查 由 图 6-16 中 的 文法 产生 的 表达 式 的 规则 将 根据 下 面 的 操作 编写 ， 这 些 操作 作用 在 表示 
类 型 的 图 上 : 

1. fresh) 用 新 的 变量 代替 类 型 表达 式 t 中 的 约束 变量 ， 返 回 指向 代表 结果 类 型 表达 式 的 节 
点 的 指针 。 在 该 过 程 中 ， 删 除 1 中 所 有 的 符号 Vo 

2. unify (m, n)。 将 m 和 n 所 指向 的 节点 所 代表 的 类 型 表达 式 合 一 。 该 操作 具有 一 定 的 副 作 
用 ， 即 记录 使 表达 式 等 价 的 代 换 。 如 果 表 达 式 不 能 合 一 ， 则 整个 类 型 检查 失败 。8 

类 型 图 中 的 各 个 叶 节 点 和 内 节点 使 用 类 似 于 5.2 节 中 的 mkleaf 和 mknode 操作 来 构造 。 必 须 为 
每 个 类 型 变量 构造 惟一 的 叶 节 点 ， 而 其 他 结构 上 等 价 的 类 型 表达 式 则 不 必用 惟一 的 节点 来 表示 。 

unify 操作 基于 下 列 关 于 合 一 和 代 换 的 图 论 公式 。 假 定 图 中 节点 m 和 n 分 别 代 表 类 型 表达 
she Alf, WE Se)= S50 ， 则 称 节点 m An ERES 下 等 价 。 寻 找 最 一 般 的 合 一 代 换 S 的 问 
题 可 以 归结 为 分 组 问题 ， 即 把 节点 划分 为 在 3 下 一 定 等 价 的 节点 集合 。 在 $ 下 等 价 的 表达 式 其 
根 也 一 定 等 价 。 两 个 节点 m 和 n 等 价 的 充分 必要 条 件 是 ， 其 根 代表 同样 的 操作 符 ， 而 且 它 们 
对 应 的 子 节点 等 价 。 

将 两 个 表达 式 合 一 的 算法 将 在 下 一 节 给 出 。 该 算法 能 够 记 住 在 已 经 出 现 的 代 换 下 等 价 的 节 

表达 式 的 类 型 检查 规则 如 图 6-18 所 示 。 此 处 ， 我 们 没有 说 明 如 何 处 理 声 明 。 当 检查 由 非 终 ”B71 


O “中止 类 型 检查 过 程 的 原因 是 某 些 合 一 操作 的 副作用 可 能 在 检测 出 错 之 前 被 记录 下 来 。 如 果 合 一 操作 的 副 作 
用 被 推迟 到 表达 式 完成 成 功 合 一 ， 则 可 以 实现 错误 恢复 。 


wy 
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结 符 了 和 O 产生 的 类 型 表达 式 时 ， 根 据 5.2 节 中 dag KERA, mkleaf 和 mknode 将 节点 加 到 

类 型 图 中 。 声 明 一 个 标识 符 时 ， 声 明 中 的 类 型 信息 保存 在 符号 表 中 ， 其 形式 为 指向 代表 该 类 型 

的 节点 的 指针 。 在 图 6-18 中 ， 该 指针 被 称 为 综合 属性 id.type。 同 上 ，jresh 操作 用 新 变量 代替 约 

REM, 并 去 掉 y 符号 。 和 产生 式 EE,, E; 相 关联 的 动作 将 E.type 设置 为 五 和 E 类 型 的 积 。 
E~E,(&E,) { p:= mkleaf (newtypevar), 


unify (E, type, mknode ('>', E,.type, p)); 
E.type := p} 


E-E‘, E { E.type := mknode('X', E,.type, Es.type)} 


E — id { E.type := fresh (id.type) } 





图 6-18 检查 多 态 函 数 的 翻译 模式 


函数 E-E,(E,) 的 类 型 检查 规则 是 从 考虑 E\.type 和 Ep.type 都 是 类 型 变量 ( 即 E\.type = a E 
Etype = B ) 的 情况 引申 出 来 的 。 此 时 Ey.type 一 定 是 函数 ， 并 使 得 对 于 某 一 未 知 类 型 y， 有 Q = 
一 成立。 在 图 6-18 中 ， 创 建 一 个 与 Y 对 应 的 新 类 型 变量 ， 并 将 El.type 和 Entype >y 进行 合 一 。 
每 次 调用 newtypevar 都 将 返回 一 个 新 的 类 型 变量 ， 相 应 的 时节 点 由 mkleaf 构造 ， 要 与 El.type 
合 一 的 、 代 表 函 数 .type 一 y 的 节点 由 mknode 来 构造 。 合 一 后 ， 新 的 叶 节点 代表 结果 类 型 。 

我 们 用 一 个 简单 的 例子 来 详细 说 明 图 6-18 中 的 规则 。 在 图 6-19 中 ， 通 过 写 出 为 每 个 子 表达 
SACHA RIA, RN BA TRARY LENE. SAA BAN, unify 操作 都 可 能 有 
副作用 ， 即 记录 某 些 类 型 变量 的 类 型 表达 式 。 这 样 的 副作用 如 图 6-19 的 代 换 栏 所 示 。 









RAN. 类 型 
q : pointer (pointer (integer)) 
deref, ; pointer(a,;) 一 a; 





deref,;(q) : pointer (integer) a; = pointer (integer) 


deref, : pointer(a,) 一 ao 


deref,(deref;(q)) : integer a, = integer 


图 6-19 自 底 向 上 确定 类 型 的 总 结 


例 6.11 对 程序 (6-6) 中 表达 式 deref。(derefi (q)) 的 类 型 检查 从 时 节点 开始 自 底 向 上 进 
行 处 理 。 下 标 o 和 i 仍然 用 来 区 别 不 同位 置 出 现 的 deref 。 考 虑 子 表达 式 deref。 时 , fresh 
用 新 类 型 变量 ae 构造 下 列 节点 : 

EY 
pointer : 2 
N :1 
节点 上 的 编号 表示 节点 所 属 的 等 价 类 。 类 型 图 中 有 关 这 3 个 标识 符 的 部 分 如 下 所 示 。 虚 线 表示 
节点 3、6 和 9 分 别 代 表 deref.. deref;M qo 


deref, deref; q 
一 :3 +26 pointer : 9 
aA aA | 
pointer : 2 pointer : 5 pointer : 8 
N N | 
a:l a, :4 integer : 7 


函数 deref; (q) 是 通过 构造 从 a 的 类 型 到 新 类 型 变量 B 的 函数 节点 n 来 检查 的 。 该 函数 成 
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功 地 与 节点 m 所 代表 的 类 型 deref; 合 一 。 在 节点 m 和 nn 合 一 之 前 ,每 个 节点 都 有 不 同 的 编号 。 
合 一 以 后 ， 等 价 节点 就 是 下 面 那些 具有 相同 编号 的 节点 ， 编 号 改变 的 节点 下 面 加 了 下 划 线 。 


n 7:6 
N 
一 :3 m >:6 pointer : $ 6:8 
-一 ) pa ) | 
pointer : 2 pointer : 5 pointer : & 
N N | 
Q:l a, 8 integer : 7 
注意 ，a 和 pointer(integer) 的 节点 编号 都 是 g Blo, 和 该 类 型 表达 式 合 一 ， 如 图 6-19 所 示 。 
EFK, w M integer 合 一 。 口 


下 面 的 例子 将 ML 中 的 多 态 函 数 的 类 型 推断 和 图 6-18 的 类 型 检查 规则 联系 在 一 起 。ML 中 苹 
数 定义 的 语法 由 下 式 给 出 ; 


fun id, {idi,...,， id, )=E; 


Et, id 代表 函数 名 ，id!，…，id 代表 其 参数 。 为 简单 起 见 ， 假 定 表 达 式 £ 的 语法 如 图 6-16 
所 示 ， 而 且 巨 中 的 标识 符 只 有 函数 名 、 函 数 参 数 和 内 置 函 数 。 

该 方法 是 例 6.9 中 方法 的 形式 化 , 在 例 6.9 中 , 我 们 为 deret 推断 出 一 个 多 态 类 型 。 在 这 里 ， 
我 们 为 函数 名 及 其 参数 构造 新 的 类 型 变量 。 内 置 函数 通常 具有 多 态 类 型 ， 出 现在 这 些 类 型 中 的 
任何 类 型 变量 都 受 全 称 量词 V 的 约束 。 然 后 ， 我 们 检查 表达 式 idod, =, id.) 的 类 型 和 E 
的 类 型 是 否 匹 配 。 如 果 匹 配 成 功 ， 我 们 就 可 以 推断 出 函数 名 的 类 型 。 最 后 ， 为 给 出 该 函数 的 多 
态 类 型 ， 在 推断 出 的 类 型 中 ， 任 何 变 量 都 受 全 称 量词 V MAR. 


例 6.12 ”回想 一 下 图 6-14 中 确定 列表 长 度 的 ML 函数 ， 
fun length(lptr) = 
if null(lptr) then 0 
else length(tl(lptr)) + 13 
类 型 变量 B 和 y 是 分 别 为 类 型 length 和 1ptr SIAM. RRM, length (lptr) 的 类 型 
与 形成 函数 体 的 表达 式 的 类 型 相 匹配 ， 而 且 length 一 定 具 有 类 型 


对 任何 类 型 a，list (a) > integer 


length : 6; 
所 以 Length 的 类 型 为 if : Va. boolean axa + a; 
Va. list(a) = integer : ve stead 7 hereon 
更 详细 地 说 ， 我 们 构造 如 图 6-20 integer 
所 示 的 程序 ， 并 在 该 程序 上 应 用 图 6- : x integer — integer; 
18 中 的 类 型 检查 规则 。 该 程序 中 的 : Va. axa ~ a; 
声明 将 length 和 lptr 与 新 类 型 
变量 BM Y 联系 起 来 ， 并 显 式 地 给 length(iptr), 


if( null(lptr), 0, length(tl(iptr)) + 1 ) 


出 内 置 操作 的 类 型 。 我 们 将 按 图 6-16 
的 格式 给 出 条 件 语 句 ， 即 将 多 态 操 7 
作 符 if 作用 于 3 个 操作 对 象 上 ， 这 3 个 操 图 6-20 类 型 声明 及 要 检查 的 表达 式 

作对 象 分 别 代 表 测试 条 件 、then 部 分 以 及 else 部 分 。 声 明 语句 表明 ，then 部 分 和 else 部 分 可 与 
任何 类 型 匹配 ， 同 时 也 是 结果 的 类 型 。 
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显然 ，length (lptr) 和 函数 体 必 须 具 有 同样 的 类 型 ,该 检查 用 操作 符 match 来 表示 。 
match 的 使 用 使 得 所 有 的 检查 都 可 用 图 6-16 那 种 风格 的 程序 来 完成 ， 它 提供 了 一 种 技术 上 的 便利 。 

将 图 6-18 的 类 型 检查 规则 用 于 图 6-20 中 的 程序 ， 其 结果 如 图 6-21 所 示 。 由 操作 fresh 引入 的 
新 变量 用 于 描述 内 置 操 作 的 多 态 类 型 ， 这 些 新 变量 根据 oo 的 下 标 来 区 分 。 由 第 (3) 行 得 知 ， 
1ength 一 定 是 从 Y 到 某 个 未 知 类 型 8 的 函数 。 然 后 ， 当 检查 子 表达 式 nul1(1ptr) 时 ， 在 第 
(6) 行 我 们 发 现 Y 和 list (on ) 合 一 ， 其 中 On 是 一 个 未 知 类 型 。 此 时 ， 我 们 知道 length 的 类 型 
一 定 是 : 


对 任何 类 型 gw， list(a,) +8 


lptr : 
length : 
length(lptr) : B=YyY-5 
lptr : 
null : liss(an) 一 boolean 
null(lptr) : boolean y = list(a,) 
: integer 
: list(a,) 
: list(a,) = list(a,) 
tl(lptr) : fist(a,) a, = a, 
length : list(a,) > ô 
length(tl(lptr)) : ô 
1 : integer 
+ : integer X integer 一 integer 
length(tl(lptr))+1 : integer ô = integer 
if : boolean Xa; Xa, > a; 
: integer Qi = integer 
: a, Xa, 一 a, 





: integer a, = integer 
图 6-21 HEB Length 的 类 型 lisi (On )- integer 
最 后 ， 在 第 (15) 行 对 加 法 进行 检查 时 ， 将 8 5 integer 合 一 。 此 处 ， 为 清晰 起 见 ， 将 “+” 
号 写 在 两 变 元 之 间 。 
检查 完毕 时 ， 类 型 变量 ou 仍 留 在 length 的 类 型 中 。 因 为 对 o 的 类 型 没有 做 任何 假设 ， 
所 以 使 用 该 函数 时 ， 可 以 用 任何 类 型 代替 它 。 因 此 我 们 把 它 作为 约束 变量 ， 并 将 length 的 
类 型 写 为 


Wan. list(a,) > integer 口 
6.7 合 一 算法 

非 形式 化 地 讲 ， 合 一 就 是 确定 将 两 个 表达 式 e 和 了 中 的 变量 用 相应 的 表达 式 替 换 后 能 否 变 
成 等 价 表 达 式 的 问题 。 测 试 表 达 式 相等 是 合 一 的 特殊 情况 。 如 果 e 和 了 中 只 包含 常量 而 没有 变 


量 ， 则 当 且 仅 当 e 和 了 完全 相同 时 e 和 了 合 一 。 本 节 的 合 一 算法 可 以 用 于 带 环 图 ， 所 以 该 算法 
可 用 于 测试 存在 环 类 型 的 结构 等 价 。” 


O 在 某 些 应 用 中 ,将 一 个 变量 和 包含 该 变量 的 表达 式 合 一 是 错误 的 。 算 法 6.1 允 许 这 种 代 换 。 
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在 上 一 节 ， 合 一 是 基于 称 为 代 换 的 函数 9 ( 从 变量 到 表达 式 的 映射 ) 来 定义 的 。 如 果 将 e 
中 的 每 个 变量 o 均 用 Sco) 代 换 ， 则 得 到 的 表达 式 记 为 Se)。 如 果 Sle) = Si), WM SH e MS 
的 合 一 代 换 。 本 节 的 算法 旨 在 确定 这 样 一 种 代 换 : 它 是 一 对 表达 式 上 的 最 一 般 的 合 一 代 换 。 
例 6.13 ”为 了 对 最 一 般 的 合 一 代 换 有 一 个 整体 概念 ， 考 虑 下 面 两 个 类 型 表达 式 : 
((a, a2) Xlist(03)) > list(a2) 
((a3 >a4) xiist(a3)) > Os 
这 两 个 表达 式 的 合 一 代 换 8 AS WER. 
这 两 个 代 换 将 e 和 /映射 成 : 


Sle) = SUf) = ((@3 > a2) X list(a3)) > list(a2) 
S'(e) = SU) = (Ca, 7 a1) X Hst(a,)) ™ Hist (aj) 





代 换 8 是 e。 和 上 的 最 一 般 的 合 一 代 换 。 注 意 ，8' (e) 是 Sle) 的 一 个 实例 ， 因 为 将 SCe) 中 的 两 个 
变量 都 用 on 替代 即 可 得 到 8 (e)。 但 是 ， 反 之 则 不 成 立 ， 因 为 8 (e) 中 的 o 的 每 一 次 出 现 都 必 
须 用 同一 个 表达 式 来 代替 ， 所 以 通过 代 换 S (e) 中 的 变量 o 不 可 能 获得 S(e)。 口 


当 用 树 表示 要 合 一 的 表达 式 时 ， 尽 管 5 是 最 一 般 的 合 一 代 换 ， 但 代 换 后 的 表达 式 Ste) 对 应 
的 树 节点 个 数 却 是 e 和 了 对 应 的 树 节点 个 数 的 指数 倍 。 然 而 ， 如 果 用 图 而 不 是 用 树 来 表示 表达 
式 和 代 换 ， 那 么 节点 数目 爆炸 式 增 大 的 情况 就 不 会 发 生 。 

要 将 合 一 的 基于 图 论 的 形式 化 描述 实现 为 算法 ,关键 是 将 最 一 般 的 合 一 代 换 下 等 价 的 两 个 
表达 式 所 对 应 的 节点 进行 分 组 。 例 6.13 中 的 两 个 表达 式 由 图 6-22 中 标记 为 一 :1 的 两 个 节点 表示 。 
在 节点 1 被 合 一 之 后 ， 节 点 上 的 整数 表示 节点 所 属 的 等 价 类 编号 。 等 价 类 具有 如 下 性 质 ， 即 辣 


一 等 价 类 中 的 所 有 内 节点 表示 相同 的 操作 符 。 在 一 个 等 价 类 中 ， 内 部 节点 对 应 的 子 节点 也 都 
是 等 价 的 。 


图 6-22 合 一 后 的 等 价 类 


算法 6.1 图 中 一 对 节点 的 合 一 。 

输入 : 一 个 图 和 一 对 要 合 一 的 节点 m 和 ma 

输出 : 如 果 节 点 mAn 所 表示 的 表达 式 合 一 ， 则 输出 布尔 值 te， 否则 输出 false, WAR 
算法 中 的 函数 不 是 返回 false， 而 是 改 为 导致 失败 ， 那 么 该 算法 就 是 图 6-18 中 类 型 检查 规则 所 需 
的 unify 的 另 一 个 版 本 。 


方法 : 节点 用 图 6-23 中 的 记录 来 表示 ， 该 记录 包含 一 个 二 元 操作 符 域 和 指向 左右 儿子 的 
指针 。 


图 6-23 节点 的 数据 结构 


w 
an 
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等 价 节点 的 集合 用 set 域 来 保 
存 。 每 个 等 价 类 都 选择 一 个 节点 作 
为 该 等 价 类 的 惟一 代表 ， 该 节点 的 
set 域 置 为 空 指针 ， 等 价 类 中 其 他 节 
点 的 set 域 均 指 向 ( 可 能 间接 地 通过 
集合 中 的 其 他 节点 ) 这 个 代表 节点 。 
初始 时 ， 每 个 节点 n 的 等 价 类 就 是 


function unify (m, n. nodey. boolean 


s := find (m); 
t := find (n); 
if s = t then 


return true 


else if s 和 + 是 代表 同一 基本 类 型 的 节点 then 


return true 


else if s 是 一 个 带 有 子 节 点 s 和 s; 的 操作 符 节 点 and 


i 是 一 个 带 有 子 节点 t 和 的 操作 符 节点 then begin 


自身 ， 而 且 n 也 是 其 自身 的 代表 节 


union (s, t); 
点 。 return unify (sı, 11) and unify (s2, £2) 
end 
图 6-24 中 的 合 一 算法 使 用 了 下 else if s 或 上 代表 一 个 变量 then begin 
面 两 个 作用 在 节点 上 的 操作 : union (s, t); 
1 find (n) 返回 节点 n 当前 所 a tm 
在 等 价 类 的 代表 节点 o end return false 


2. union(m, n) 合并 节点 m 和 nn 
所 在 的 两 个 等 价 类 。 如 果 两 个 等 价 
类 中 的 某 一 代表 节点 是 非 变 量 节 点 ， 图 6-24 合 一 算法 
那么 union 将 该 节点 作为 合并 后 等 价 类 的 代表 节点 。 否 则 union 任 选 其 中 的 一 个 作为 新 的 代表 
节点 。 在 union 的 说 明 中 ， 这 种 非 对 称 性 很 重要 ， 因 为 变量 不 能 当 作 一 个 包含 类 型 构造 符 或 基 
本 类 型 的 表达 式 的 等 价 类 代表 。 否 则 的 话 ， 两 个 不 等 价 的 表达 式 就 可 能 通过 该 变量 合 一 。 

集合 上 的 union 操作 可 通过 修改 其 中 一 个 等 价 类 的 代表 上 的 ser 域 ， 使 其 指向 另 一 等 价 类 
的 代表 来 实现 。 为 寻找 某 节点 所 属 的 等 价 类 ， 我 们 逐 级 查找 节点 的 se 指针 ， 直 到 到 达 代 表 节 
点 (该 节点 的 set 域 为 空 指针 ) 为 止 。 

注意 ， 图 6-24 中 的 算法 分 别 使 用 s = find (mA = find (n), WAS m An, WR mA n E 
同一 等 价 类 中 ， 则 代表 节点 s 和 t 相等 。 如 果 s Mt 代表 同一 基本 类 型 ， 则 unify (m, nn) 返回 
tue, WR s 和 + 都 是 代表 二 元 类 型 构造 符 的 内 部 节点 ， 我 们 先 碰 碰 运 气 将 其 合并 ， 然 后 递归 
地 检查 它们 各 自 的 子 节点 是 否 等 价 。 通 过 先进 行 合并 ， 在 递归 检查 子 节点 之 前 ， 等 价 类 的 数目 
就 会 减少 ， 所 以 算法 最 终 会 停止 。 

用 表达 式 代 换 变量 是 通过 将 代表 变量 的 叶 节 点 加 到 包含 该 表达 式 对 应 节点 的 等 价 类 中 来 实 
现 的 。 如 果 m 或 是 代表 变量 的 叶 节 点 ， 而 且 已 经 被 加 到 某 节点 所 属 的 等 价 类 中 ， 而 该 节点 
是 一 个 包含 类 型 构造 符 或 基本 类 型 的 表达 式 所 对 应 的 节点 ， 那 么 其 上 的 find 将 返回 该 类 型 构造 
符 或 基本 类 型 的 代表 ， 所 以 此 时 变量 不 可 能 与 两 个 不 同 的 表达 式 进行 合 一 。 口 


例 6.14 ”在 图 6-25 中 ， 我 们 给 出 了 例 6.13 中 两 个 表达 式 所 对 应 的 图 的 初始 形式 。 此 时 ， 图 
中 各 节点 都 已 被 编号 并 且 各 自 处 于 它 自 己 的 等 价 类 中 。 现 在 要 计算 unify, 9)， 算 法 注意 到 节 


sa 带 有 不 同 操作 符 的 内 节点 不 能 被 合 一 */ 





X :2 list : 8 x: 10 as: 14 
一 :3 list :6 ai list :13 
a, :4 ol :和 Oy: qi l2 


图 6-25 每 个 节点 都 属于 它 自己 的 等 价 类 的 初始 dag 
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点 1 和 节点 9 代表 相同 的 操作 符 ， 所 以 将 1 和 9 合并 到 同一 个 等 价 类 中 。 之 后 ， 递 归 调用 unify(2, 
10) 和 unify(8, 14)。 计 算 unify, 9) 的 结果 是 图 6-22 中 所 示 的 图 。 口 


如 果 算 法 6.1 返 回 true， 我 们 可 以 如 下 构造 代 换 S 可 充当 某 个 合 一 代 换 )。 令 结果 图 中 的 
每 个 节点 n 代表 与 find (n) 相关 联 的 表达 式 。 这 样 ， 对 每 一 个 变量 a, find (Q) 给 出 节点 n, € 
是 a 所 在 等 价 类 的 代表 。n 所 代表 的 表达 式 就 是 Sa)。 例 如 ， 在 图 6-22 中 ，ou 的 代表 节点 为 4， [879 
同时 它 也 代表 ou ，os 的 代表 节点 为 8， 同 时 它 也 代表 lista) 


例 6.15 算法 6.1 可 以 用 于 测试 下 面 两 个 类 型 表达 式 是 否 结构 等 价 : 
t . ee 一 (real = f) 
它们 的 类 型 图 如 图 6-26 所 示 。 为 方便 起 见 ， 
每 个 节点 均 已 编号 。 
我 们 调用 unify (1, 3) 来 测试 这 两 个 表达 / 
式 是 否 结构 等 价 。 算 法 将 节点 1 和 3 并 人 某 等 real: 
价 类 中 ， 并 递归 调用 unify (2, 4) 和 unify (1, 图 6-26 两 个 带 环 类 型 的 图 
5)。 由 于 2 和 4 代表 同样 的 基本 类 型 ， 所 以 
调用 unify (2, 4) 返回 true。 调 用 unify (1, 5) a. C) 
时 将 5 加 入 1 和 3 的 等 价 类 中 ， 接 下 来 ， 再 递归 LY 
调用 unify (2, 6) 和 unify (1, 3)。 real:2 real :2 
调用 unify (2, 6) 返 回 tue， 因 为 2? 和 6 也 代 
表 同 样 的 基本 类 型 。 第 二 次 调用 unify (1, 3) 时 ， , 
因为 我 们 已 经 将 节点 1 和 3 并 人 同一 等 价 类 中 图 6-27 说 明 节 点 等 价 关 的 类 型 图 
了 ， 所 以 算法 终止 。 返 回 值 为 true, 说 明 这 两 个 类 型 表达 式 确实 等 价 。 最 后 节点 的 等 价 类 如 图 
6-27 所 示 ， 标 记 相 同 整 数 的 节点 在 同一 个 等 价 类 中 。 O [380 


real:2 








real:2 


练习 


6.1 请 写 出 下 列 类 型 的 类 型 表达 式 : 
a) 指向 实数 的 指针 数组 ， 数 组 的 下 标 从 1 到 100。 
b) 二 维 整 型 数组 〈 即 数组 的 数组 )， 其 行 下 标 从 0 到 9， 列 下 标 从 -10 到 10。 
c) 函数 ， 其 定义 域 是 从 整数 到 整 型 指针 的 函数 ， 值 域 是 整数 和 字符 组 成 的 记录 。 
6.2 设 有 如 下 C 语 言 声明 : 
typedef struct { 
int a, b; 
} CELL, *PCELL; 
CELL foo[100]; 
PCELL bar(x, y) int x; CELL y { -> } 
请 写 出 foo 和 bar 的 类 型 表达 式 。 
63 下 面 的 文法 定义 了 建立 在 文字 (literal) 列表 上 的 列表 。 各 个 符号 的 含义 和 图 6-3 中 文 
法 的 符号 相同 ， 只 是 增加 了 list 类 型 ， 它 表示 元 素 类 型 为 了 的 列表 : 
P +D;E 
D -~D;DIia :7T 


we 
oo 
= 


N 
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T - list of T | char | integer 
E > (L) {literal | num | id 
L ~+E,LIE 
请 写 出 类 似 于 6.2 节 的 翻译 模式 以 确定 表达 式 (E) 和 表 CL) 的 类 型 。 
64 在 练习 6.3 的 文法 中 加 入 产生 式 E>nil， 意 即 表达 式 可 以 为 空 。 修 改 练习 6.2 的 答案 以 
考虑 这 样 的 事实 ， 即 nll 可 以 代表 元 素 为 任意 类 型 的 空 表 。 
6.5 使 用 6.2 节 的 翻译 模式 ， 计 算 下 面 程序 段 中 表达 式 的 类 型 。 给 出 分 析 树 中 每 个 节点 的 
类 型 。 
apc: char; i: integer; 
c mod i mod 3 


b) p: tinteger; a: array [10] of integer; 
alpt] 


c) f: integer > boolean; 
i: integer; j: integer; k: integer; 
while £(i) do 
k i; 
i j mod i; 
了 k 
6.6 修改 6.2 节 中 检查 表达 式 类 型 的 翻译 模式 ， 使 其 在 发 现 错误 时 打印 错误 说 明 信 息 ， 并 
继续 检查 ， 就 好 像 已 经 遇 到 了 期 望 的 类 型 。 
6.7 重 写 6.2 节 中 表达 式 的 类 型 检查 规则 ， 使 其 访问 表示 类 型 表达 式 的 图 节点 。 重 写 后 的 
规则 应 该 使 用 类 Pascal 语言 所 支持 的 数据 结构 和 操作 。 在 下 列 情况 下 使 用 类 型 表达 式 
的 结构 等 价 : . 
a) 类 型 表达 式 用 树 表示 ， 如 图 6-2 所 示 ， 且 
b) 类 型 图 是 一 个 dag ， 每 个 类 型 表达 式 对 应 惟一 的 节点 。 
6.8 修改 图 6-5 的 翻译 模式 ， 使 之 能 处 理 如 下 情况 : 
a) 具有 值 的 语句 。 赋 值 语 名 的 值 是 赋值 号 “:=” 右 边 的 表达 式 的 值 ， 条件 语句 或 
while 语句 的 值 是 语句 体 的 值 ， 而 语句 列表 的 值 是 列表 中 最 后 一 个 语句 的 值 。 
b) 布尔 表达 式 。 为 逻辑 操作 符 and、or、not 和 比较 操作 符 (“<” 等 ) 增加 产生 式 ， 
然后 ， 增 加 给 出 这 些 表达 式 的 类 型 的 适当 的 翻译 规则 。 
6.9 推广 6.2 节 最 后 给 出 的 函数 的 类 型 检查 规则 ， 使 之 能 处 理 n 元 函数 。 
6.10 假定 类 型 名 link 和 cell 像 在 6.3 节 中 那样 定义 。 下 面 的 表达 式 中 哪些 是 结构 等 价 
的 ?哪些 是 名 字 等 价 的 ? 
i) link. 
ii) pointer(cell). 
iii) pointer (link). 
iv) pointer (record((info X integer) X (next X pointer(cell))) 


6.11 重新 描述 图 6-6 中 测试 结构 等 价 的 算法 ， 使 得 sequiv 的 参数 为 指向 dag 中 节点 的 指针 。 
6.12 考虑 例 6.1 中 将 受 限 的 类 型 表达 式 编 码 为 二 进 制 序列 的 方法 。 在 Johnson[1979] 中 ， 构 


造 符 的 两 位 域 编码 以 相反 的 顺序 出 现 ， 而 最 外 层 的 构造 符 编码 紧 挨 着 基本 类 型 的 四 
位 域 编码 。 例 如 ， 


类 型 表达 式 编码 
char 000000 0001 
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6.13 


6.14 
6.15 


6.16 


6.17 


6.18 


6.19 


6.20 


6.21 


6.22 


freturns (char) 000011 0001 
pointer (freturns (char)) 001101 0001 
array (pointer (freturns (char))) 110110 0001 


使 用 C 的 操作 符 编写 代码 以 从 t 的 表示 构造 array (0 的 表示 ， 以 及 从 array (0 的 表示 

构造 1 的 表示 。 假 定 按 下 述 方式 编码 : 

a) Johnson{1979]。 

b) 例 6.1。 

假设 每 个 标识 符 的 类 型 都 是 一 个 整 型 子 界 。 对 含有 操作 符 +、-、*、div Mi mod 的 

表达 式 ( 如 Pascal 中 的 表达 式 )， 请 写 出 为 每 个 子 表 达 式 分 配子 界 的 类 型 检查 规则 ， 

要 求 子 表 达 式 的 值 必须 落 在 所 分 配 的 子 界 中 。 

给 出 测试 C 语言 中 类 型 等 价 的 算法 ( 参见 例 6.4 )。 

有 些 语言 ， 如 PL/L, 会 强制 地 将 布尔 值 转换 成 整数 ， 即 用 1 表示 true， 用 0 表示 false, 

例如 ，3<4<5 会 被 组 合成 (3<4) <5， 而 且 其 值 为 true (或 1 )， 因 为 3<4 的 值 为 ] 且 

1<5 为 true。 为 布尔 表达 式 构造 翻译 规则 以 完成 这 种 强制 转换 。 需 要 时 ， 可 在 中 间 

语言 中 使 用 条 件 语句 将 整数 值 赋 给 代表 布尔 表达 式 值 的 临时 变量 。 

推广 图 6-9 和 图 6-12 中 的 算法 ， 使 之 能 够 处 理 含 有 类 型 构造 符 array、pointer ARE 

卡 儿 积 的 表达 式 。 

下 面 哪些 递归 的 类 型 表达 式 是 等 价 的 ? 

e1 = integer 一 el 

e2 = integer — (integer 一 e2) 

e3 = integer — (integer > e1) 

使 用 例 6.6 中 的 规则 确定 下 面 的 哪些 表达 式 具 有 惟一 的 类 型 。 假 定 z 是 一 个 复数 。 

a) 1#2*#*3 

b) 1#(z#2) 

c) (1*+z)»z 

假设 我 们 允许 例 6.6 的 类 型 转换 。 当 a、 和 c 的 类 型 〈 整 型 或 复 型 ) 满足 什么 条 件 

时 ， 表 达 式 (a*b)*c 将 具有 惟一 的 类 型 ? 

使 用 类 型 变量 表示 下 列 函数 的 类 型 : 

a) 函数 ref， 它 以 任意 类 型 的 对 象 为 参数 ， 并 返回 指向 该 对 象 的 指针 。 

b) 一 个 函数 ， 它 以 下 标 为 整数 的 数组 为 参数 ， 数 组 元 素 为 任意 类 型 ， 而 且 返回 一 个 
数组 ， 其 元 素 是 参数 数组 中 元 素 所 指向 的 对 象 。 

找 出 下 列 类 型 表达 式 的 最 一 般 的 合 一 代 换 ; 

i) (pointer (0)) x(B 一 了) 

ii) Bx (y—> 8) 

RG) PH 5 Ho, 结果 又 是 什么 ? 

从 下 面 的 表达 式 列 表 中 找 出 每 对 表达 式 的 最 一 般 的 合 一 代 换 ， 或 证 实 不 存在 这 种 代 

Pe: 

a} &)— ( %2 > 1) 

b) array (Bı) 一 (pointer (B) —> Bs) 

c) Yi % 
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6.23 


* 6.24 


** 6.25 


6.26 


** 6,27 
* 6.28 
** 6.29 


6.30 


* 


* 6.31 


* 


d) 8, (ð > 6,) 
扩展 例 6.6 中 的 类 型 检查 规则 使 之 适用 于 记录 类 型 。 记 录 的 类 型 表达 式 和 表达 式 使 用 
下 述 附 加 产生 式 来 产生 : 

T > record fields end 

E->E.id 
fields — fields ; field | field 
field > id : T 
缺少 类 型 名 对 能 被 定义 的 类 型 增加 了 什么 限制 ? 
6.5 节 中 重 载 的 解决 分 两 阶段 进行 : 首先 ， 确 定 每 个 子 表 达 式 的 可 能 类 型 的 集合 ， 第 
二 阶段 ， 在 整个 表达 式 的 惟一 类 型 确定 之 后 ， 将 每 一 个 子 表达 式 的 可 能 类 型 的 集合 
缩小 到 惟一 类 型 。 在 自 底 向 上 的 一 遍 扫 描 中 ， 你 将 使 用 什么 样 的 数据 结构 来 解决 重 
载 问 题 ? 
如 果 标 识 符 声 明 是 可 选 的， 那么 解决 重 载 问题 将 变 得 更 加 困难 。 更 确切 地 说 ， 假 设 
声明 可 以 用 于 重 载 代 表 函 数 符号 的 标识 符 ， 但 未 声明 标识 符 的 所 有 出 现 都 具有 相同 
类 型 。 试 证 明 : 确定 该 语言 中 的 表达 式 是 否 具 有 有 效 类 型 的 问题 是 一 个 NP 完全 问 
题 。 该 问题 是 在 对 实验 语言 Hope ( Burstall, MacQueen, and Sannella[1980] ) 进行 类 
型 检查 时 出 现 的 。 
仿照 例 6.12， 对 下 面 的 map 推断 其 多 态 类 型 ; 
map : Wa. YB. ((a—B)Xlist(a)) — list(B) 
map 的 ML 定义 为 


fun map(f, 1) = 
if null(1) then nil 
else cons( f(hd(1)), map(f, t1(1))) 


在 该 函数 体 中 ， 内 置 标识 符 的 类 型 为 


null : Va. list(a) — boolean; 
nil : Va. list(a); 
cons : Va. (aXlist(a)) = list(a); 
hd : Va. list(a) > a; 
tl : Va. list(a) > list(a); 


证 明 6.7 节 的 合 一 算法 能 确定 出 最 一 般 的 合 一 代 换 。 

修改 6.7 节 的 合 一 算法 ， 使 之 不 会 将 变量 和 包含 该 变量 的 表达 式 合 一 。 

假设 用 树 来 表示 表达 式 。 找 出 表达 式 。 和 了， 使 得 对 任何 合 一 代 换 5，5 (e) 中 的 节点 
数 是 。 和 中 节点 数 的 指数 倍 。 

如 果 两 个 节点 代表 等 价 的 表达 式 ， 那 么 它们 称 为 全 等 的 。 即 使 在 初始 类 型 图 中 任何 
两 个 节点 都 不 是 全 等 的 ,但 合 一 以 后 ,不同 的 节点 有 可 能 是 全 等 的 。 

a) 给 出 一 个 算法 ， 将 一 类 互相 全 等 的 节点 合并 为 一 个 节点 。 

b) 扩展 (a) 中 的 算法 ， 合 并 全 等 的 节点 直到 没有 两 个 不 同 的 节点 全 等 为 止 。 

在 图 6-28 中 的 完整 C 程序 中 ， 第 (9) 行 的 表达 式 g (9) 是 一 个 调用 自身 的 函数 。 第 (3) 
行 的 声明 指出 o 的 值 域 类 型 为 integer, ili g 的 参数 类 型 没有 被 指定 。 当 试 着 运行 


该 程序 时 ， 编 译 器 会 发 出 警告 ， 因 为 第 G3) 行 将 g PARERA, MIE tE i PARK 
的 指针 。 


类 型 擒 查 251 





a) 关于 g 的 类 型 你 能 说 些 什么 ? 

b) 使 用 图 6-18 中 多 态 函 数 的 类 型 检查 规则 推断 下 面 程序 中 g 的 类 型 。 
m : integer; 

times : integer X integer > integer; 
gia; 

times( m, g(g) ) 


int n; 


int f(g) 
int g(); 
{ 
int m; 
m = n; 


if( m == 0 ) return 1; 


else { 
n =n - 1; return m * gig}; 
} 
} 


(12) main() 
(13) í{ 


(14) n = 5; printf£("%d factorial is ¥d\n", n, f(f) ); 
(15) } 





图 6-28 一 个 包含 调用 自身 的 函数 的 C 程序 
参考 文献 注释 


在 Fortran 和 Algol 60 这 样 的 早期 语言 中 ， 对 基本 类 型 和 类 型 构造 符 的 限制 比较 严 ， 所 以 类 
型 检查 不 是 严重 的 问题 。 因 此 ， 在 它们 的 编译 器 中 ， 对 类 型 检查 的 描述 就 隐藏 在 对 表达 式 代码 
生成 的 讨论 中 。Sheridan[1959] 描 述 了 最 初 的 Fortran 编 译 器 对 表达 式 的 翻译 。 该 编译 器 能 知道 
表达 式 的 类 型 是 整 型 还 是 实 型 ， 但 该 语言 不 允许 强制 类 型 转换 。Backus[1981, p.54] 回 顾 道 : 
“我 认为 只 是 因为 我 们 不 喜欢 混合 模式 表达 式 的 规则 ， 所 以 我 们 决定 :“ 让 我 们 抛 掉 它 ， 这 样 会 
更 简单 。”Naur[1965] 是 早期 关于 Algol 编译 器 中 的 类 型 检查 的 文章 。 该 编译 器 所 使 用 的 技术 
类 似 于 6.2 节 所 讨论 的 技术 。 

Zuse 在 他 的 Plankalkiil 中 抢先 使 用 了 数据 的 结构 化 措施 ， 如 数组 和 记录 ， 但 Plankalkiil 没 有 
什么 直接 影响 (Bauer and Wassner[1972] )。Algol 68 是 最 早 允 许 系统 地 构造 类 型 表达 式 的 语言 
之 一 。 它 可 以 递归 地 定义 类 型 表达 式 ， 并 采用 结构 等 价 。 名 字 等 价 和 结构 等 价 的 明显 区 别 是 在 
EL1 中 发 现 的 ， 选 择 哪 一 种 由 程序 员 决 定 (Wegbreit[1974]) Welsh, Sneeringer, and Hoare 
[1977] 对 Pascal 的 批评 引起 了 对 该 区 别 的 注意 。 

强制 类 型 转换 和 重 载 的 结合 可 能 导致 二 义 性 : 强制 转换 变 元 的 类 型 可 能 导致 重 载 被 解析 为 
男 一 种 算法 。 因 此 要 对 强制 类 型 转换 或 者 重 载 加 以 限制 。PL/ 采 用 了 一 种 对 强制 类 型 转换 不 加 
约束 的 方法 ， 其 中 ， 第 一 个 设计 准则 是 :“ 什 么 都 行 。 如 果 符 号 的 特定 结合 具有 合适 的 切合 实 
际 的 含意 ， 就 将 其 作为 正式 的 含意 (Radin and Rogoway[1965] )。” 基 本 类 型 集合 常常 是 排序 的 
(例如 ，Hext{1967] 中 描述 了 一 种 施加 在 CPL 基本 类 型 上 的 栅 格 结构 ) 并 且 低 层 类 型 可 能 被 强 
制 转换 成 高 层 类 型 。 
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在 APL ( Iverson[1962] ) 和 SETL ( Schwartz[1973] ) 这 样 的 语言 中 ， 重 载 的 编译 时 解 可 以 
潜在 地 降低 程序 的 运行 时 间 (Bauer and Saal[1974] )。Tennenbaum[1974] 将 下 面 两 种 解 加 以 区 
Sil: 一 种 是 从 操作 数 确 定 操作 符 可 能 类 型 集 的 “前 向 ” 解 ， 另 一 种 是 基于 上 下 文 期 望 类 型 的 
“后 向 ” 解 。 使 用 类 型 顶 格 ，Jones and Muchnick[19761 以 及 Kaplan and Ullman[1980] 解 决 了 对 
前 向 和 后 向 分 析 所 获得 的 类 型 的 约束 。Ada 中 的 重 载 可 以 通过 一 遍 前 向 分 析 跟 以 一 遍 后 向 分 析 
来 解决 ， 如 6.5 节 所 述 。 该 结论 出 现在 许多 论文 中 ， 如 Ganzinger and Ripken[1980], Pennello, 
DeRemer and Meyers[1980] 、Janas[1980]、Persch et al. [1980]。Cormack[1981] 中 提供 了 一 种 递 
HKA, mi Baker[1982] 则 通过 携带 可 能 类 型 的 dag 而 避免 了 一 遍 后 向 分 析 。 

Curry 研 究 了 与 组 合 逻 辑 和 和 演算 ( Church[19411 ) 有 关 的 类 型 推断 ( Curry and Feys [1958] )。 
很 早 即 发 现 和 演算 是 函数 语言 的 核心 。 在 本 章 中 ， 我 们 已 经 反复 使 用 对 参数 的 图 数 调用 来 讨论 
类 型 检查 的 概念 。 在 入 演算 中 ， 定 义 和 应 用 晴 数 可 以 不 必 考 虑 类 型 。Curry 对 它们 的 “函数 特 
征 ” 感 兴趣 ， 并 想 确 定 现在 我 们 应 怎样 称呼 最 一 般 的 多 态 类 型 ， 它 是 由 类 型 表达 式 和 全 称 量词 
组 成 的 ， 如 6.6 节 所 述 。 受 Cury 的 启发 ，Hindley[1969] 发 现 合 一 可 用 于 推断 类 型 。Morris 在 
他 的 论文 中 ( Morris[1968a] ) 也 独立 地 提出 : 通过 建立 一 组 方程 并 对 其 求解 来 将 类 型 分 配给 入 
表达 式 可 以 确定 与 变量 相关 的 类 型 。 在 对 Hindley 的 工作 一 无 所 知 的 情况 下 ， Miiner[1978] 也 
发 现 合 一 可 用 于 求解 这 组 方程 ， 并 将 该 思想 用 于 推断 ML 程序 设计 语言 中 的 类 型 。 

Cardelli[1984] 中 讨论 了 ML 中 类 型 检查 的 语 用 ( pragmatics )。 该 方法 已 经 被 用 于 Meertens 

387| ”[1983] 所 开发 的 一 种 语言 中 。Suzuki[1981] 研究 了 它 在 Smalltalk 1976 (Ingalls [19781) 上 的 应 
用 。Mitchell[1984] 中 说 明了 如 何 将 强制 类 型 转换 加 进去 。 

Morris[1968a] 发 现 递 归 或 循环 类 型 允许 我 们 推断 包含 调用 自身 的 函数 的 表达 式 类 型 。 
图 6-28 中 的 C 语言 程序 包含 一 个 调用 自身 的 函数 ， 它 是 受 Ledgard[1971] 中 一 个 Algol 程序 的 启 
发 而 得 来 的 。 练 习 6.31 来 自 MacQueen, Plotkin, and Sethi[1984]， 其 中 给 出 了 一 个 递归 多 态 类 型 
的 语义 模型 。McCracken[1979] 和 Cartwrightf1985] 中 还 给 出 了 其 他 方法 。Reynolds[1985] 中 综述 
了 ML 类 型 系统 、 避 免 与 强制 类 型 转换 和 重 载 有 关 的 异常 的 理论 方针 以 及 高 阶 多 态 函 数 。 

Robinson[1965] 最 先 对 合 一 进行 了 研究 。 从 测试 (1) 有 穷 自动 机 和 (2) 带 环 路 的 链表 
( Knuth[1973a] ，2.3.5 节 ， 练 习 11 ) 的 算法 可 以 很 容易 地 改造 出 6.7 节 的 合 一 算法 。Hopcroft and 
Karp[1971] 给 出 的 测试 有 穷 自动 机 等 价 的 几乎 线性 的 算法 可 以 看 作 是 Knuth[1973a]594 页 概述 的 
实现 。 通 过 数据 结构 的 巧妙 使 用 ，Paterson and Wegman[1978] 以 及 Martelli and Montanari[ 1982} 
中 给 出 了 无 环 情况 下 的 线性 算法 。Downey，Sethi, and Tarjan[1980] 中 描述 了 寻找 全 等 节点 ( 见 
练习 6.30 ) 的 算法 。 


Despeyroux[1984] 中 描述 了 一 个 类 型 检查 器 生成 器 ， 它 使 用 模式 匹配 来 从 基于 推理 规则 的 
操作 语义 描述 生成 一 个 类 型 检查 器 。 


we 二 /二 žr 
第 7 章 运行 时 环境 

在 考虑 代码 生成 以 前 ， 我 们 需要 把 静态 的 源 程序 正文 和 实现 该 程序 的 运行 时 必须 发 生 的 活 
动 联系 起 来 。 程 序 执行 时 ， 源 程序 正文 中 同样 的 名 字 可 以 表示 目标 机 器 中 不 同 的 数据 对 象 。 本 
章 就 是 要 考察 名 字 和 数据 对 象 之 间 的 关系 。 

数据 对 象 的 分 配 和 释放 由 运行 时 支撑 程序 包 管 理 。 它 由 一 些 例 行 子 程序 组 成 ， 这 些 子 程序 
和 所 产生 的 目标 代码 一 起 装配 。 运 行 时 支撑 程序 包 的 设计 受过 程 的 语义 的 影响 。 使 用 本 章 讨论 
的 技术 可 以 构造 像 Fortran 、Pascal 和 Lisp 等 语言 的 支撑 程序 包 。 

过 程 的 每 次 执行 称 为 该 程序 的 一 个 活动 。 如 果 过 程 是 递归 的 ， 则 在 某 一 时 刻 可 能 有 它 的 几 
个 活动 是 活跃 的 。 在 Pascal 中 ， 过 程 的 每 次 调用 引起 一 个 活动 ， 这 个 活动 可 以 操纵 分 配给 它 使 
用 的 数据 对 象 。 

数据 对 象 运 行 时 的 表示 由 它 的 类 型 决定 。 通 常 ， 像 字符 、 整 数 和 实数 这 样 的 基本 数据 类 型 
可 以 由 目标 机 器 中 等 价 的 数据 对 象 表示 。 但 是 ， 像 数组 、 字 符 串 和 结构 这 样 的 集合 数据 类 型 通 
常 由 一 组 基本 对 象 表 示 ， 它 们 的 空间 安排 将 在 第 8 章 中 讨论 。 


7.1 源 语言 问题 


为 便于 说 明 ， 假 定 程 序 像 Pascal 那样 由 过 程 组 成 。 读 者 应 该 注意 区 别 过 程 的 源 正文 和 它 运 
行 时 的 活动 。 
7.1.1 过 程 

过 程 定义 是 一 个 声明 ， 它 的 最 简单 形式 是 把 一 个 标识 符 和 一 个 语句 联系 起 来 。 该 标识 符 是 
过 程 名 ， 而 这 个 语句 是 过 程 体 。 例 如 ， 图 7-] 中 的 Pascal 代码 包括 过 程 名 为 readarray 的 过 
程 (第 (3) ~ (7) 行 ) ; 它 的 过 程 体 为 第 (5) ~ (7) 行 。 有 返回 值 的 过 程 在 许多 语言 中 叫做 函数 ， 不 
过 ， 把 它们 称 为 过 程 也 是 可 以 的 。 完 整 的 程序 也 可 以 看 成 一 个 过 程 。 

当 过 程 名 出 现在 可 执行 语句 中 时 ， 则 称 过 程 在 该 点 被 调用 。 过 程 调 用 就 是 执行 被 调用 过 程 
的 过 程 体 。 图 7-1 中 的 主 程序 ( 第 (21) ~ (25) 行 ) 在 第 (23) 行 调用 过 程 readarray， 在 第 (24) 行 
调用 过 程 auicksort。 注 意 ， 过 程 调用 也 可 以 出 现在 表达 式 中 ( 如 在 第 (16) 行 中 那样 )。 

出 现在 过 程 定义 中 的 某 些 标识 符 是 特殊 的 ， 称 为 该 过 程 的 形式 参数 (或 形 参 ) ( C 中 称 它 们 
为 形式 变 元 ，Fortran 称 它们 为 哑 变 元 )。 第 (12) 行 出 现 的 标识 符 m 和 n 就 是 过 程 quicksort 
的 形 参 。 称 为 实在 参数 (或 实 参 ) 的 变 元 被 传递 给 被 调用 过 程 ， 它们 取代 过 程 体 中 的 形式 参数 。 
建立 实 参 和 形 参 之 间 对 应 关系 的 方法 将 在 7.5 节 中 介绍 。 图 7-1 的 程序 中 第 (18) 行 用 实 参 i+1 和 
n 来 调用 quicksort 过 程 。 
7.1.2 活动 树 

我 们 对 程序 执行 时 过 程 间 的 控制 流 作出 如 下 假设 : 

1. 控制 流 是 连续 的 ， 即 程序 的 执行 由 一 些 连续 的 步骤 组 成 ， 在 任何 一 步 ， 控 制 处 于 程序 中 
的 某 点 。 

2. 过 程 的 每 次 执行 都 从 过 程 体 的 起 点 开始 ， 最 后 控制 返回 到 直接 跟随 在 本 次 调用 点 之 后 的 
位 置 。 这 意味 着 过 程 间 的 控制 流 可 以 用 树 来 描绘 ， 稍 后 就 会 看 到 这 一 点 。 
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(1) program sort(input, output); 
(2) var a : array [0..10] of integer; 


(3) procedure readarray; 

(4) var i: integer; 

(5) begin 

(6) for i := 1 to 9 do read(a[i]) 
{7) end; 


(8) function partition(y, z: integer) : integer; 
(9) var i, j, x, v: integer; 

(10) begin ... 

(11) , end; 


(12) procedure quicksort(m, n: integer); 
(13) var i : integer; 
(14) begin 
(15) if ( n>m ) then begin 
(16) i := partition(m,n); 
(17) quicksort(m,i-1); 

quicksort(i+1,n) 

end 
end; 


begin 
ar[0] := -9999; a[10] := 9999; 
readarray; 
quicksort (1,9) 

end. 





图 7-1 读 和 人 整数 并 排序 的 Pascal 程 序 

过 程 体 的 每 次 执行 叫做 该 过 程 的 一 个 活动 。 过 程 p 的 一 个 活动 的 生存 期 是 从 过 程 体 执行 的 
第 一 步 到 最 后 一 步 的 步 序列 ， 包 括 执行 被 p 调用 的 过 程 的 时 间 ， 以 及 再 由 这 样 的 过 程 调用 过 程 
所 花 的 时 间 ， 等 等 。 一 般 而 言 ， 术 语 “ 生 存 期 ”是 指 程序 执行 期 间 的 连续 的 步 序列 。 

在 像 Pascal 这 样 的 语言 中 ,每 次 控制 从 过 程 p HATE a， 最 后 都 将 返回 到 p〈 除非 出 现 
致命 错误 )。 更 准确 地 说 ， 每 次 控制 流 从 过 程 p 的 活动 记录 进入 过 程 a 的 某 个 活动 记录 时 ， 它 
都 会 返回 到 p 的 同一 活动 记录 中 。 

WR a 和 b 是 过 程 的 活动 ， 那 么 它们 的 生存 期 或 者 不 交 迭 ， 或 者 嵌 套 。 也 就 是 说 ， 如 果 在 
离开 a 之 前 进入 b， 那 么 控制 在 离开 b 之 后 才能 离开 a。 


Execution begins... 


活动 生存 期 的 府 套 特性 可 以 通过 在 每 个 过 程 中 插入 enter readarray 
两 个 打印 语句 来 说 明 ， 一 个 在 过 程 体 的 第 一 条 语句 之 前 ， onto. auuekecee(1,9) 
另 一 个 在 最 后 一 条 语句 之 后 。 第 一 条 打印 语句 打印 输出 enter partition(1,9) 
enter， 然 后 是 调用 的 过 程 名 和 实 参 的 值 ， 第 二 条 打印 leave partition(1,9) 
语句 打印 输出 1eave， 接 着 仍然 是 过 程 名 和 实 参 值 。 图 enter quicksortí1,3) 
7-1 中 的 程序 加 入 这 两 个 打印 语句 之 后 的 结果 在 图 7-2 中 给 leave quicksort(1,3) 
出 。 活 动 quicksort (1,9) 的 生存 期 是 在 打印 输出 enter quicksort(5,9) 
enter quicksort (1,9)#lleave quicksort (1,9) leave quicksort(5,9) 
之 间 执 行 的 步 序 列 。 图 7-2 中 假设 partition (1,9 ) 的 leave quicksort(1,9) 





返回 值 是 4 Execution terminated. 
如 果 同 一 个 过 程 的 一 次 新 的 活动 可 以 在 前 一 次 活动 图 7-2 图 7-1 中 过 程 活动 的 输出 
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结束 前 开始 ， 则 称 这 样 的 过 程 是 递归 的 。 图 7-2 中 ， 控 制 从 第 (24) 行 进入 活动 guicksort 
(1,9) ， 是 整个 程序 执行 过 程 中 比较 早 的 阶段 ， 却 几乎 在 整个 程序 执行 过 程 的 最 后 结束 。 同 时 
还 有 其 他 几 个 quicksort 活 动 ， 因 此 称 quicksort 为 递归 的 。 

一 个 递归 的 过 程 p 不 必 直 接 调用 自己 ; p 可 以 调用 另 一 个 过 程 sg， 然后 q 通过 一 系列 过 程 
调用 之 后 再 调用 pb。 我 们 可 以 用 一 棵 树 〈 称 之 为 活动 树 ) 来 描绘 控制 进入 和 离开 活动 的 方式 。 
在 活动 树 中 

1. 每 个 节点 代表 过 程 的 一 个 活动 。 

2. 根 节点 代表 主 程序 的 活动 。 

3. 当 且 仅 当 控制 流 从 活动 a 进入 活动 时， 节点 a 是 节点 5 的 父 节 点 。 

4. 当 且 仅 当 a 的 生存 期 先 于 5b 的 生存 期 发 生 时 ，a 节点 处 于 5 节点 的 左边 。 

因为 节点 和 活动 一 一 对 应 ， 所 以 当 控 制 在 某 节点 所 代表 的 活动 中 时 ， 我 们 就 直接 说 控制 在 
这 个 节点 。 


例 7.1 图 7-3 的 活动 树 是 从 图 7-2 中 的 输出 构造 出 来 的 ? 。 为 节省 空间 ， 每 个 过 程 仅 用 第 一 
个 字母 代表 。 活 动 树 的 根 是 整个 程序 sorto Æ sort 执行 期 间 ， 有 一 个 readarray 活动 ， 
由 根 的 第 一 个 子 节点 代表 ， 标 记 为 <。 下 一 个 活动 由 根 的 第 二 个 子 节点 表示 ， 是 实 参 为 1 和 9 的 
quicksort 的 活动 。 在 这 个 活动 期 间 ， 在 图 7-1 的 第 (16)~(18) 行 调用 partition 和 
quicksort 而 引起 活动 p (1,9) ，q (1,3) 和 q (5,9)。 注 意 ，q (1,3) 和 q(5,9) 的 活动 是 递归 


的 ,它们 在 a (1,9) 结束 之 前 开始 和 结束 。 口 
s 
一 一 | 
工 a(1,9) 
p(1,9) a(1,3) q(5,9) 
p(1,3) q(1,0) q(2,3) p(5,9) q(5,5) q(7,9) 
p(2,3) q(2,1) q(3,3) p(7,9) @(7,7) qa(9,9) 


图 7-3 图 7-2 中 程序 输出 所 对 应 的 活动 树 

7.1.3 控制 栈 

程序 的 控制 流 对 应 于 从 活动 树 根 节点 开始 的 深度 优先 遍历 ， 也 就 是 在 访问 一 个 节点 的 子 节 
点 之 前 先 访问 该 节点 ， 然 后 再 以 从 左 到 右 的 顺序 递归 地 访问 每 个 节点 的 子 节点 。 图 7-2 中 的 输 
出 结果 就 可 以 通过 遍历 图 7-3 中 的 活动 树 得 到 。 第 一 次 经 过 一 个 节点 的 时 候 打印 enter， 在 一 
个 节点 的 整 棵 子 树 被 访问 之 后 打印 leave. 

我 们 可 以 用 控制 栈 来 保存 活跃 着 的 过 程 活动 。 基 本 思想 是 : 当 活 动 开 始 时 ， 把 这 个 活动 的 
节点 压 人 控制 栈 ; 当 这 个 活动 结束 时 ， 弹 出 这 个 节点 。 控 制 栈 的 内 容 与 到 活动 树 的 根 节 点 的 一 
条 路 径 相 关 。 当 节点 = 在 控制 栈 的 栈 顶 时 ， 栈 内 包含 的 是 从 节点 二 到 根 的 路 径 上 的 节点 。 


例 7.2 ”图 7-4 给 出 了 控制 进入 (2,3) 代表 的 活动 时 图 7-3 的 活动 树 中 那些 曾经 到 达 过 的 节 
点 。 标 记 为 +，p (1,9) ,，p (1,3) 和 aq(1,0) 的 活动 已 经 执行 完毕 ， 所 以 图 中 用 虚线 连 到 这 些 节 


日 quicksort 所 做 的 实际 调用 依赖 于 partition 的 返回 值 (参见 Aho, Hopcroft, and Ullman[1983] 中 的 算法 
细节 )。 图 7-3 描 述 了 一 棵 可 能 的 调用 树 。 它 与 图 7-2 是 一 致 的 , 虽然 树 中 底层 的 一 些 调用 在 图 7-2 中 没有 给 出 。 
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点 。 实 线 标记 从 节点 q (2, 3) 到 根 的 路 径 。 | 
此 时 ， 控 制 栈 包含 如 下 从 该 点 到 根 的 路 径 -77 , 
上 的 节点 〈 栈 顶 的 节点 在 右边 ): - 


p(1,9) 、 a(1,3) 
s, q(1,9), q(1,3), q(2,3) “ 


并 且 除 此 之 外 没有 其 他 节点 口 ea 


图 7-4 控制 栈 包 含 到 根 的 路 径 上 的 节点 
我 们 可 以 把 控制 栈 拓 广 到 栈 式 存储 分 配 技 
本 ， 它 可 以 用 来 实现 像 Pascal 和 C 这 样 的 语言 。 这 种 技术 将 在 7.3 节 和 7.4 节 中 详细 讨论 。 
7.1.4 声明 的 作用 域 


站 


语言 中 的 声明 是 把 信息 与 名 字 联 系 起 来 的 语法 结构 。 声 明 可 以 是 显 式 的 ， 例 如 在 Pascal 程 


了 


序 段 


var i: integer; 


中 。 声 明 也 可 以 是 隐 式 的 ， 例 如 在 Fortran 程序 中 ， 若 无 其 他 声明 ， 以 I 开 始 的 变量 名 代表 整 型 
变量 。 

在 程序 的 不 同 部 分 可 能 有 同一 名 字 的 互相 独立 的 声明 。 当 程序 正文 中 出 现 一 个 名 字 时 ， 语 
言 的 作用 域 规则 确定 应 使 用 该 名 字 的 那 一 个 声明 。 在 图 7-1 的 Pascal 语言 程序 中 ，i 分 别 在 第 
(4)、(9) 和 (13) 行 声明 了 共 3 次 ， 它 在 过 程 readarray, partition 和 quicksort 中 的 使 用 
是 相互 独立 的 。 第 (4) 行 的 声明 适用 于 第 (6) 行 中 对 i 的 使 用 ， 即 第 (6) 行 中 :的 两 次 出 现 是 在 第 (4) 
行 的 声明 的 作用 域 之 内 。 第 (16)~(18) 行 中 i 的 3 次 出 现 是 在 第 (13) 行 的 声明 的 作用 域 之 内 。 

一 个 声明 起 作用 的 那 部 分 程序 称 为 该 声明 的 作用 域 。 过 程 中 一 个 名 字 如 果 出 现在 该 过 程 的 
一 个 声明 的 作用 域内 ， 则 称 这 个 出 现 局 部 于 该 过 程 ; 否则 ， 称 为 非 局 部 的 。 局 部 和 非 局 部 名 字 
的 区 分 适用 于 任何 包含 声明 的 语法 结构 。 

作用 域 是 名 字 声 明 的 一 个 性 质 。 为 简单 起 见 ， 用 简称 “名 字 x 的 作用 域 ”来 代替 “对 名 字 
x 的 这 次 出 现 起 作用 的 x 的 声明 的 作用 域 "。 这 样 ， 图 7-1 中 第 (17) 行 的 i 的 作用 域 就 是 
quicksort 的 过 程 体 。° 

编译 时 ， 符 号 表 可 用 来 寻找 对 一 个 名 字 的 出 现 起 作用 的 声明 。 看 见 一 个 声明 时 ， 就 为 它 建 
立 一 个 符号 表 表 项 。 只 要 处 于 这 个 声明 的 作用 域 中 ， 在 查找 到 这 个 声明 中 的 名 字 时 ,返回 的 总 
是 这 个 表 项 。 符 号 表 将 在 7.6 节 讨论 。 

7.1.5 名 字 的 绑 定 

即使 每 个 名 字 在 程序 中 只 声明 一 次 ， 同 一 个 名 学 在 运行 时 也 可 能 代表 不 同 的 数据 对 象 。 非 
正式 的 术语 “数据 对 象 ” 指 的 是 保存 值 的 存储 单元 。 

在 程序 设计 语言 的 语义 中 ， 术 语 环 境 表示 将 名 字 映 射 到 存储 单元 的 函数 ， 术 语 状 态 表示 
将 存储 单元 映射 到 它 所 保存 的 值 的 函数 ， 如 图 环境 状态 
7-5 表 示 。 使 用 第 2 章 中 左 值 和 右 值 的 术语 ， 可 SON AN 
以 说 环境 把 名 字 映 射 到 左 值 ， 状 态 把 左 值 映射 名 字 存储 单元 什 
到 右 值 。 图 7-5 从 名 字 到 值 的 两 步 映射 

大 部 分 时 间 ， 在 不 引起 混淆 的 情况 下 ， 术 语 名 字 、 标 识 符 、 变 量 和 单词 可 以 交替 使 用 。 

环境 和 状态 是 有 区 别 的 ， 赋 值 改 变 状态 ， 但 不 改变 环境 。 例 如 ， 如 果 变 量 pi 的 存储 单元 


O 大 部 分 时 间 ， 在 不 引起 混淆 的 情况 下 ， 术 语 名 字 、 标 识 符 、 变 量 和 词素 可 以 交替 使 用 。 
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地 址 是 100， 其 值 是 0， 那 么 在 赋值 语句 pi := 3 . 14 执行 之 后 ，pi 的 存储 单元 地 址 仍然 是 100， 
但 它 保 存 的 值 变 为 3 .14。 
如 果 环 境 把 存储 单元 s 与 名 字 x 联系 起 来 ， 我 们 说 x RER s， 这 个 联系 本 身 称 为 x WH 
定 。 术 语 “存储 单元 ”是 象征 性 的 ， 如 果 x 不 是 基本 类 型 ，x 的 存储 单元 * 可 能 是 一 组 存储 字 。 
如 图 7-6 所 示 ， 绑 定 是 声明 的 动态 对 应 
物 。 我 们 已 经 看 见 ， 在 某 一 时 刻 ， 递 归 过 














动态 对 应 物 









程 可 以 有 不 止 一 个 活动 活路 着 。 在 Pascal 中 ， pe 半 
过 程 中 的 局 部 变量 的 名 字 在 过 程 的 不 同 活 声明 的 作用 域 绑 定 的 生命 期 


动 中 绑 定 到 不 同 的 存储 单元 。 局 部 变量 名 
字 的 绑 定 技术 将 在 7.3 节 中 考虑 。 
7.1.6 一 些 问 题 

语言 的 编译 器 组 织 其 存储 区 和 绑 定名 字 的 方法 ,在 很 大 程度 上 取决 于 对 下 面 这 些 问题 的 回 
答 : 

1. 过 程 能 递归 吗 ? 

2. 控制 从 过 程 的 活动 返回 时 ， 局 部 名 字 的 值 发 生 了 怎样 的 变化 ? 

3. 过 程 能 引用 非 局 部 的 名 字 吗 ? 

4. 过 程 被 调用 时 是 怎样 传递 参数 的 ? 

5. 过 程 是 否 可 以 作为 参数 被 传递 ? 

6. 过 程 能 否 作 为 结果 被 返回 ? 

7. 存储 区 能 否 在 程序 控制 下 动态 地 分 配 ? 

8. 存储 区 是 否 必须 显 式 地 释放 ? 

这 些 问 题 对 程序 设计 语言 所 需 的 运行 时 支持 的 影响 将 在 本 章 的 其 余部 分 讨论 。 


7.2 存储 组 织 


本 节 讨 论 的 运行 时 存储 组 织 的 方式 可 用 于 Fortran, Pascal 和 C 等 语言 。 
7.2.1 运行 时 内 存 的 划分 

假定 编译 器 从 操作 系统 得 到 一 块 存储 区 ， 用 于 被 编译 过 的 程序 的 运行 。 根 据 上 节 的 讨论 ， 
运行 时 该 存储 区 可 以 划分 成 块 ， 用 以 保存 : 

1. 产生 的 目标 代码 。 

2. 数据 对 象 。 

3. 记录 过 程 活动 的 控制 栈 的 对 应 物 。 

产生 的 目标 代码 的 长 度 在 编译 时 即 可 确定 ， 所 以 编译 
器 可 以 把 目标 代码 放 在 静态 确定 的 区 域 中 ， 可 能 是 内 存 的 
低地 址 区 。 同 样 ， 某 些 数据 对 象 的 长 度 也 可 以 在 编译 时 知 
道 ， 因 此 它们 也 可 以 放 在 静态 确定 的 区 域 中 ， 如 图 7-7 所 示 。 
尽 可 能 对 数据 对 象 进行 静态 分 配 的 一 个 理由 是 ， 这 些 对 象 
的 地 址 可 以 编译 到 目标 代码 中 。Fortran 语言 的 所 有 数据 对 E77 将 运行 时 内 存 划分 成 代码 区 
象 都 可 以 静态 分 配 。 和 数据 区 的 典型 划分 

Pascal 和 C 这 样 的 语言 的 实现 使 用 拓 广 的 控制 栈 来 管理 过 程 的 活动 。 当 调用 出 现时 ， 一 个 
活动 的 执行 被 中 断 ， 有 关机 器 状态 的 信息 ， 如 程序 计数 器 和 机 器 寄存 器 的 值 ， 就 保存 在 这 个 栈 


图 7-6 静态 概念 和 动态 概念 的 对 应 
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中 。 当 控制 从 调用 返回 时 ， 在 恢复 了 有 关 寄存 器 的 值 和 把 程序 计数 器 置 到 紧 接 该 调用 的 下 一 个 
点 后 ， 该 活动 能 够 继续 。 生 存 期 被 包含 在 这 个 活动 中 的 数据 对 象 可 以 分 配 在 这 个 栈 中 ， 与 这 个 
活动 的 其 他 有 关 信息 放 在 一 起 。 这 种 策略 将 在 下 节 中 讨论 。 

运行 时 内 存 的 另 一 个 单独 区 域 叫做 堆 ， 它 保存 所 有 其 他 信息 。 如 7.7 节 讨论 的 那样 ，Pascal 
允许 数据 在 程序 控制 下 分 配 ， 这 种 数据 的 存储 空间 可 以 分 配 在 堆 区 。 活 动 的 生存 期 不 能 用 活动 
树 表示 的 语言 的 实现 时 可 以 用 堆 来 保存 活动 的 信息 。 数 据 放 在 栈 上 比 放 在 堆 上 开销 要 小 些 ， 这 
是 由 它们 对 数据 的 分 配 和 释放 方式 决定 的 。 

程序 执行 时 ， 栈 的 长 度 和 堆 的 长 度 都 会 改变 ， 所 以 在 图 7-7 中 把 它们 分 放 在 内 存 的 两 端 ， 需 
要 时 ， 它 们 向 对 方 增长 。Pascal 和 C 语言 既 需 要 运行 时 栈 也 需要 堆 ， 但 不 是 所 有 的 语言 都 这 样 。 

通常 ， 栈 向 下 增长 。 也 就 是 说 ,“ 栈 顶 ” 向 页 面 的 底部 增长 。 因 为 内 存 地 址 随 页 面向 下 而 
增长 , “向 下 增长 ”就 意味 着 地 址 值 增加 。 如 果 用 top 标记 栈 项 ， 距 栈 项 的 偏 移 可 以 用 cop 减 
去 偏 移 来 计算 。 在 许多 机 器 中 ,通过 将 top 的 值 保存 在 寄存 器 中 可 以 有 效 地 完成 该 计算 。 因 此 ， 
栈 地址 可 以 用 距 top 的 偏 移 来 表示 。9。 

7.2.2 活动 记录 

过 程 一 次 执行 所 需 的 信息 用 一 块 连续 的 存储 区 来 管理 ， 这 块 存储 区 叫做 活动 记录 或 帧 ， 它 
由 图 7-8 中 所 示 的 各 个 域 组 成 。 不 是 所 有 的 语言 ， 也 不 是 所 有 的 编译 器 都 使 用 所 有 这 些 域 ， 它 们 
中 的 一 个 或 多 个 域 往往 可 以 用 寄存 器 取代 。 像 Pascal 和 C 这 样 的 
语言 的 习惯 做 法 是 ， 在 过 程 被 调用 时 把 它 的 活动 记录 压 人 运行 
栈 ， 在 控制 返回 调用 者 时 把 这 个 活动 记录 从 栈 中 弹出 。 

活动 记录 的 各 个 域 的 用 途 如 下 ( 从 临时 数据 域 开始 ): 

1. 临时 数据 域 。 如 计算 表达 式 时 出 现 的 那些 值 ， 存 放 在 临 
时 数据 域 中 。 

2. 局 部 数据 域 。 保 存 局 部 于 过 程 执行 的 数据 ， 这 个 域 的 布 
局 将 在 后 面 讨论 。 

3. 机 器 状态 域 。 保 存 过 程 调用 前 的 机 器 状态 信息 ， 包 括 程 
序 计数 器 的 值 和 控制 从 这 个 过 程 返回 时 必须 恢复 的 机 器 寄存 器 
的 值 。 

4. 可 选 的 访问 链 。7.4 节 中 用 它 来 引用 存 于 其 他 活动 记录 中 图 7-8 一 般 的 活动 记录 
的 非 局 部 数据 ，Fortran 这 样 的 语言 不 需要 访问 链 ， 因 为 非 局 部 数据 保存 在 固定 的 地 方 。Pascal 
语言 需要 访问 链 或 者 display 表 机 制 。 

5. 可 选 的 控制 链 。 用 来 指向 调用 者 的 活动 记录 。 

6. 实在 参数 域 。 用 于 存放 调用 过 程 提 供给 被 调用 过 程 的 参数 。 我 们 把 参数 的 空间 放 在 活动 
记录 中 ， 但 实际 上 常常 用 机 器 寄存 器 传递 参数 ， 以 提高 效率 。 

7. 返回 值 域 。 用 于 存放 被 调用 过 程 返 回 给 调用 过 程 的 值 。 实 际 上 ， 为 提高 效率 ， 这 个 值 也 
常用 寄存 器 返回 。 

每 个 域 的 长 度 都 可 以 在 过 程 调用 时 确定 。 事 实 上 ， 差 不 多 所 有 域 的 长 度 都 可 以 在 编译 时 确 





O 图 7-7 中 的 存储 组 织 假定 运行 时 内 存 是 由 开始 执行 时 获得 的 单个 连续 的 存储 块 组 成 的 。 该 假定 使 得 组 成 栈 和 
堆 的 存储 空间 的 大 小 具有 固定 的 限制 。 如 果 该 限制 足够 大 使 之 很 少 被 超过 ， 则 对 大 部 分 程序 来 说 都 是 一 种 
浪费 。 如 果 将 栈 和 堆 中 的 目标 链接 起 来 ， 则 维护 栈 顶 的 开销 将 变 大 。 此 外 ， 不 同 的 目标 机 器 对 存储 区 域 的 
安排 会 有 所 不 同 。 例 如 ， 某 些 机 器 允许 将 地 址 的 正 偏 移 放 在 寄存 器 中 。 
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定 。 一 个 例外 是 ， 如 果 过 程 中 有 大 小 由 实 参 值 决定 的 局 部 数组 ， 则 只 有 运行 到 这 个 过 程 被 调用 
时 才能 确定 局 部 数据 区 域 的 大 小 。 活 动 记录 中 可 变 长 数据 的 分 配 将 在 7.3 节 讨论 。 
7.2.3 编译 时 的 局 部 数据 布局 

假定 运行 时 的 存储 空间 是 连续 字 节 的 存储 块 ， 其 中 字 节 是 内 存 可 编 址 的 最 小 单位 。 在 许多 
机 器 上 ， 一 个 字 节 为 8 位 ， 几 个 字 节 形成 一 个 机 器 字 。 多 字 节 对 象 存 于 连续 的 字 节 中 ， 并 以 第 
一 个 字 节 的 地 址 作为 该 对 象 的 地 址 。 

名 字 所 需 的 存储 空间 的 数量 是 由 它 的 类 型 确定 的 。 基 本 数据 类 型 ， 如 字符 、 整 数 或 实数 ， 
通常 可 以 用 整数 个 字 节 存储 。 对 于 数组 或 记录 这 样 的 集合 体 ， 它 的 存储 区 必须 大 到 足以 存放 它 
所 有 的 成 分 。 为 便于 访问 它 的 成 分 ， 这 种 集合 体 的 存储 空间 的 典型 分 配 是 使 用 一 块 连续 的 字 节 
区 。 我 们 将 在 8.2 节 和 8.3 节 详细 讨论 。 

局 部 数据 域 在 编译 过 程 中 的 声明 时 分 配 ， 长 度 可 变 的 数据 保存 在 这 个 域 之 外 。 我 们 记 住 为 前 
面 声明 的 变量 分 配 的 内 存单 元 地 址 值 ， 通 过 这 个 地 址 值 就 能 够 确定 一 个 局 部 变量 的 相对 地 址 ， 如 
相对 于 活动 记录 的 开始 点 的 相对 地 址 。 相 对 地 址 (或 偏 移 ) 是 数据 对 象 地 址 和 某 个 位 置 的 地 址 差 。 

数据 对 象 的 存储 布局 深 受 目标 机 器 的 寻 址 约束 的 影响 。 例 如 ， 整 数 加 法 的 指令 可 能 需要 整 
数 对 齐 ， 即 整数 必须 放 在 内 存 中 特定 的 位 置 ， 如 被 4 整除 的 地 址 。 虽 然 10 个 字符 的 数组 只 需要 
足够 存放 10 个 字符 的 字 节 ,但 编译 器 很 可 能 分 配 12 个 字 节 ， 其 中 两 个 字 节 不 用 。 由 于 考虑 到 对 
齐 而 产生 的 无 用 空间 叫做 填充 空白 区 。 如 果 空 间 很 宝贵 ， 编 译 器 可 以 压缩 数据 ， 使 得 没有 任何 
填充 空白 区 存在 ， 但 是 运行 时 可 能 需要 执行 一 些 额 外 的 指令 来 定位 压缩 数据 ， 使 得 这 些 数据 就 
像 是 对 齐 的 一 样 以 便 正常 操作 。 


例 7.3 图 7-9 给 出 了 由 M1、M2 两 台 机 器 上 的 C 编 译 器 使 用 的 数据 布局 。C 提 供 三 种 不 同 大 
小 的 整 型 ， 即 短 整 型 、 整 型 和 长 整 型 ， 分 别 用 关键 字 short、int、long 声 明 。 在 Mi 中 这 些 
类 型 将 分 别 分 配 16、32 和 32 位 存储 空间 ， 而 在 M2 中 将 分 配 24、48 和 64 位 存储 空间 。 图 7-9 中 给 
出 了 两 台 机 器 数据 类 型 分 配 位 数 的 对 比 情况 ， 尽 管 两 台 机 器 都 不 允许 直接 按 位 进行 地 址 访问 。 


对 齐 (位) 





649 
64 
64 
64 
64 
64 
64 
64 
64 


O 数组 中 的 字符 每 8 位 对 齐 。 
图 7-9 用 于 两 个 C 编 译 器 的 数据 布局 


M1 的 内 存 按 每 8 位 组 成 一 个 字 节 。 虽 然 每 个 字 节 都 有 一 个 地 址 ， 但 指令 通常 将 短 整 型 分 配 
在 地 址 为 偶数 的 字 节 里 ， 整 型 被 分 配 在 地 址 能 被 4 整除 的 字 节 里 。 为 了 把 短 整 型 分 配 在 地 址 为 
偶数 的 字 节 里 ， 编 译 器 甚至 必须 跳 过 一 个 字 节 作为 填充 空白 区 。 但 是 这 样 一 来 ， 很 可 能 把 包含 
四 个 字 节 (32 位 ) 的 一 段 区 域 分 配给 跟随 在 短 整 型 后 面 的 字符 。 

在 M2 中 ， 每 个 字 包 含 64 位 ， 用 24 位 寻 址 。 因 为 在 一 个 字 中 有 64 个 不 同 的 位 ， 所 以 需要 用 6 
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位 附加 位 来 区 分 一 个 字 中 的 每 个 位 。 这 样 ， 一 个 指向 字符 的 指针 在 M2 中 占用 30 位 ，24 位 用 来 
寻找 字 ，6 位 用 来 指出 一 个 字符 在 一 个 字 中 的 位 置 。 

尽管 一 些 类 型 不 需要 一 个 字 那 么 大 的 空间 ， 但 M2 指令 集 强烈 的 字 倾 向 导致 编译 器 每 次 分 
配 一 个 完整 的 字 ， 例 如 给 只 需要 8 位 的 字符 类 型 分 配 一 个 字 。 因 此 在 对 齐 规则 下 ， 图 7-9 中 每 一 
种 类 型 都 将 占用 64 位 。 包 含 128 位 的 双 字 可 能 会 分 配给 一 个 字符 和 跟随 其 后 的 一 个 短 整 型 ， 其 
中 ,字符 只 占 第 一 个 字 中 的 8 位 ， 而 短 整 型 只 占 第 二 个 字 的 24 位 。 口 


7.3 存储 分 配 策略 


下 面 三 种 存储 分 配 策略 可 分 别 用 于 图 7-7 中 的 三 种 数据 区 域 : 

1. 静态 分 配 策略 。 在 编译 时 为 所 有 数据 对 象 分 配 存储 单元 。 

2. 栈 式 分 配 策略 。 按 栈 方式 管理 运行 时 的 存储 空间 。 

3. 堆 式 分 配 策略 。 在 运行 时 根据 需要 从 堆 数据 区 域 分 配 和 释放 存储 空间 。 

本 节 我 们 将 这 些 分 配 策略 用 于 活动 记录 ， 并 描述 过 程 的 目标 代码 怎样 访问 绑 定 到 局 部 名 字 
的 存储 单元 。 
7.3.1 静态 存储 分 配 

在 静态 分 配 中 ， 名 字 在 程序 编译 时 与 存储 单元 绑 定 ， 所 以 不 需要 运行 时 支撑 程序 包 。 因 为 
运行 时 不 改变 绪 定 ， 所 以 每 次 过 程 活动 时 ， 它 的 名 字 都 绑 定 到 同样 的 存储 单元 。 这 种 性 质 允 许 
局 部 名 字 的 值 在 过 程 停止 活动 后 仍然 保 桂 ， 即 当 控 制 再 次 进入 过 程 时 ， 局 部 名 字 的 值 同 控制 上 
一 次 离开 时 一 样 。 

根据 名 字 的 类 型 ， 编 译 器 可 以 确定 该 名 字 所 需 的 存储 空间 ， 如 7.2 节 所 讨论 的 那样 。 这 个 
存储 空间 的 地 址 由 相对 于 该 过 程 活动 记录 一 端的 偏 移 量 表示 。 编 译 器 最 后 必须 确定 活动 记录 在 
目标 程序 中 的 位 置 ， 如 相对 于 目标 代码 的 
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位 置 。 一 旦 这 一 点 确定 下 来 ， 每 个 活动 记 
录 的 位 置 以 及 活动 记录 中 每 个 名 字 的 存储 
位 置 就 都 固定 了 ， 所 以 编译 时 在 目标 代码 
中 能 填 上 所 要 操作 的 数据 对 象 的 地 址 。 同 
样 ， 过 程 调用 时 保存 信息 的 地 址 在 编译 时 
也 是 已 知 的 。 

然而 ,仅仅 使 用 静态 分 配 会 带 来 局 
限 性 。 

1. 数据 对 象 的 长 度 和 它 在 内 存 中 位 置 
的 约束 在 编译 时 必须 知道 。 

2. 不 允许 递归 过 程 ， 因 为 一 个 过 程 的 
所 有 活动 使 用 同样 的 局 部 名 字 绑 定 。 

3. 数据 结构 不 能 动态 建立 ， 因 为 没有 
运行 时 的 存储 分 配 机 制 。 

Fortran 语 言 允 许 静 态 存储 分 配 。For- 
tran 程 序 由 主 程序 、 子 例 程 和 函数 (它们 
都 称 为 过 程 ) 组 成 ， 如 图 7-10 的 Fortran77 


CHARACTER * 50 BUF 

INTEGER NEXT 

CHARACTER C, PRDUCE 

DATA NEXT /1/, BUF /’ ’/ 
C = PRDUCE()} 
BUF(NEXT:NEXT) = C 
NEXT = NEXT + 1 
IF ( C .NE. ’ % ) GOTO 6 
WRITE (*,°(A)’) BUF 
END 


CHARACTER FUNCTION PRDUCE( ) 
CHARACTER * 80 BUFFER 
INTEGER NEXT 
SAVE BUFFER, NEXT 
DATA NEXT /81/ 

IF ( NEXT .GT. 80 ) THEN 
READ (#*,’(A)’) BUFFER 
NEXT = 1 

END IF 

PRDUCE = BUFFER(NEXT: NEXT) 

NEXT = NEXT+1 

END 





图 7-10 一 个 Fortran 77 程 序 
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程序 所 示 。 使 用 图 7-7 中 的 内 存 组 织 ， 这 个 程序 的 代码 和 活动 记录 的 布局 如 图 7-11 所 示 。 在 
CNSUME 的 活动 记录 中 ， 有 局 部 变量 BUF, NEXT 和 C 的 空间 。 名 字 BUF 与 保存 了 50 个 字符 
的 存储 单元 绑 定 ， 接 着 是 存放 NEXT 对 应 的 整数 值 和 c 对 应 的 字符 值 的 空间 。PRDUCE 中 也 有 
NEXT 的 声明 ， 但 这 不 会 引起 问题 ， 因 为 分 别 局 部 于 这 两 个 过 程 的 NEXT 在 各 自 过 程 的 活动 记 


录 中 得 到 空间 。 










代码 
PRDUCE 的 代码 
CHARACTER*50 BUF ~ CNSUME 的 活动 记录 
INTEGER NEXT 
是 CHARACTER C + 静态 数据 
“CHARACTER*B0 BUFFER” ] ?RDUCE 的 活动 记录 
INTEGER NEXT ye 


图 7-11 一 个 Fortran 77 程序 局 部 标识 符 的 静态 存储 


因为 可 执行 代码 的 长 度 和 活动 记录 的 长 度 在 编译 时 已 知 ， 除 了 图 7-11 的 方式 外 ， 也 可 以 使 
用 其 他 的 存储 组 织 方式 。Fortran 编 译 器 可 以 把 每 个 过 程 的 活动 记录 和 该 过 程 的 代码 放 在 一 起 。 
在 某 些 计 算 机 系统 中 ， 还 可 以 不 指定 活动 记录 的 相对 位 置 ， 而 让 链接 编辑 程序 去 连接 活动 记录 
和 可 执行 代码 。 


例 7.4 图 7-10 中 程序 的 结果 取决 于 过 程 活动 后 被 保留 的 局 部 量 的 值 。Fortran77 的 SAVE 
语句 指出 ， 一 个 活动 开始 时 的 局 部 量 的 值 必须 与 上 一 个 活动 结束 时 的 值 一 样 ， 这 些 局 部 量 的 初 
值 可 以 用 parva 语句 指定 。 

WH PRDUCE 中 第 (18) 行 的 语句 每 次 读 一 行 正文 到 缓冲 区 ， 该 过 程 的 每 次 活动 递交 后 继 字 
符 。 主 程序 CNSUME 也 有 缓冲 区 ， 它 累积 字符 直至 看见 空格 为 止 。 当 输入 是 

hello world 
时 ， 由 PRDUCE 的 活动 返回 的 字符 描绘 在 图 7-12 中 。 程 序 的 输出 是 

hello 





CNSUME 


PRDUCE PRDUCE PRDUCE PRDUCE PRDUCE PRDUCE 
h e 1 1 © ” 


图 7-12 PRDUCE 的 活动 所 返回 的 字符 


PRDUCE 存放 一 行 正文 的 缓冲 区 在 该 过 程 的 各 个 活动 之 间 必 须 维持 它 的 值 。 第 (15) 行 的 
SAVE 语 句 保 证 当 控 制 回 到 PRDUCE 时 ， 局 部 变量 BUFFER 和 NEXT 的 值 和 控制 上 一 次 离开 该 
过 程 时 的 值 一 样 。 控 制 第 一 次 到 达 PRDUCE 时 ， 局 部 变量 NEXT 的 值 取 自 第 (16) 行 的 DATA 语 
‘aj, BU NEXT 的 初 值 是 81。 口 
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7.3.2 PARA 

栈 式 存储 分 配 是 基于 控制 栈 的 思想 ， 把 存储 空间 组 织 为 栈 ， 而 且 随 着 过 程 活动 的 开始 和 结 
束 将 活动 记录 进 栈 和 出 栈 。 过 程 每 次 调用 时 , 局 部 量 的 存储 空间 包含 在 该 次 调用 的 活动 记录 中 ， 
由 于 每 次 调用 都 引起 新 的 活动 记录 进 栈 , 所 以 每 次 活动 时 局 部 量 都 绑 定 到 新 的 存储 单元 。 而 且 ， 
因为 活动 记录 弹出 栈 时 局 部 量 的 存储 空间 被 释放 ， 所 以 ， 活 动 结束 时 局 部 量 的 值 被 删除 。 

我 们 首先 描述 所 有 活动 记录 的 长 度 在 编译 时 都 可 知 的 栈 式 存储 分 配 形式 ， 编 译 时 只 能 获得 
不 完整 的 长 度 信息 的 情况 在 后 面 讨论 。 

假定 寄存 器 top 标记 栈 顶 ， 运 行 时 活动 记录 的 分 配 和 释放 分 别 由 增 大 和 减少 top 来 完成 。 
如 果 过 程 q 的 活动 记录 长 度 是 <&， 那 么 在 a 的 代码 执行 前 把 top 增加 wa， 控制 从 过 程 q 返回 时 
将 top W/E a. 


例 7.5 图 7-13 表 示 当 控制 流通 过 如 图 7-3 所 示 的 活动 树 时 ， 活 动 记 录 压 人 运行 栈 和 从 栈 中 
弹出 的 情况 ， 树 中 的 虚线 引 向 已 经 结束 的 活动 。 执 行 开始 时 有 过 程 s 的 活动 ， 当 控制 到 达 s 中 
的 第 一 个 调用 时 ， 过 程 z 被 激活 ， 它 的 活动 记录 压 人 栈 ; 当 控制 从 这 个 活动 返回 时 ， 这 个 活动 
记录 弹出 ， 栈 中 仅 留 下 s 的 活动 记录 。 在 s 的 活动 中 ， 控 制 到 达 以 1 和 9 为 实 参 的 过 程 ga 的 调用 ， 


在 活动 树 中 的 位 置 栈 中 的 活动 记录 备注 











s s 的 活动 记录 
8 
一 r 被 激活 
r 
-| r 的 活动 记录 弹出 ， 
r q(1,9) q(1,9) 压 人 
8 
7 cls) 
ee 控制 返回 到 
p(1,9) q(1,3) a(1, 3) 
o” 1 


-7 1 
p(1,3) q(1,0) 


i: integer 








图 7-13 活动 记录 的 向 下 增长 的 栈 式 存储 分 配 
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G 的 这 个 活动 的 活动 记录 分 配 在 栈 顶 。 只 要 控制 在 这 个 活动 中 ， 它 的 活动 记录 就 在 栈 顶 。 

图 7-13 中 最 后 两 幅 图 之 间 有 几 个 活动 出 现 。 在 最 后 一 幅 图 中 ， 活 动 p (1,3) 和 q (1,0) 都 在 
q (1,3) 的 生存 期 里 开始 并 已 经 结束 ， 所 以 它们 的 活动 记录 已 经 压 入 和 弹出 堆栈 ， 留 下 q (1,3) 
的 活动 记录 在 栈 顶 。 口 


在 Pascal 的 过 程 中 ， 像 7.2 节 所 讨论 的 那样 ， 我 们 能 够 确定 局 部 数据 在 活动 记录 中 的 相对 地 
址 。 运 行 时 ， 假 定 top 指示 活动 记录 的 末端 ， 该 过 程 目标 代码 中 局 部 名 字 x 的 地 址 可 以 写成 
dx(top)， 它 表示 绑 定 到 x 的 数据 可 以 在 top + dx 的 位 置 找到 。 当 然 ， 也 可 以 用 指向 活动 记录 中 
一 个 固定 点 的 任意 其 他 寄存 器 的 值 加 ( 减 ) 某 个 偏 移 来 计算 地 址 。 
7.3.2.1 调用 序列 

过 程 调用 是 通过 在 目标 代码 中 生成 调用 序列 来 实现 的 。 调 用 序列 分 配 活动 记录 ， 并 把 信息 
填 人 它 的 域 中 ; 返回 序列 恢复 机 器 状态 ， 使 调用 过 程 能 够 继续 执行 。 

即使 是 实现 同一 种 语言 ， 调 用 序列 和 活动 记录 也 可 能 不 同 。 调 用 序列 的 代码 常常 分 成 两 部 
分 ， 分 别处 于 调用 过 程 和 被 调用 过 程 中 。 过 程 调用 序列 在 调用 过 程 和 被 调用 过 程 间 无 准确 的 划 
分 ， 源 语言 、 目 标 机 器 和 操作 系统 强加 的 限制 可 能 使 一 种 办 法 比 另 一 种 办 法 更 合适 。。 

有 助 于 设计 调用 序列 和 活动 记录 的 一 个 原则 是 , 长 度 能 较 早 确定 的 域 放 在 活动 记录 的 中 间 。 
在 图 7-8 的 一 般 活 动 记录 中 ， 控 制 链 、 访 问 链 和 机 器 状态 域 出 现在 中 间 。 是 否 使 用 控制 链 和 访 
问 链 取 决 于 编译 器 的 设计 ， 因 此 这 些 域 可 以 在 构造 编译 器 时 固定 。 如 果 对 于 每 个 活动 ， 要 保存 
的 机 器 状态 信息 量 完全 相同 ， 那 么 可 以 用 同样 的 代码 来 执行 各 个 活动 的 保存 和 恢复 。 而 且 ， 当 
出 现 错误 时 ， 调 试 器 将 很 容易 辨认 栈 的 内 容 。 

即使 临时 数据 域 的 长 度 可 以 在 编译 时 最 终 确定 ， 但 就 前 端 而 言 ， 这 个 域 的 大 小 也 可 能 是 未 
知 的 ， 因 为 代码 生成 或 优化 可 能 缩减 过 程 所 需 的 临时 数据 区 。 在 活动 记录 中 ， 一 般 把 临时 数据 
域 放 在 局 部 数据 域 的 后 面 ， 它 的 长 度 的 改变 不 会 影响 数据 对 象 相 对 于 中 间 那 些 域 的 位 置 。 

因为 每 个 调用 都 有 它 自 己 的 实 参 ， 调 用 者 通常 计算 实 参 ， 并 把 它们 传 到 被 调用 者 的 活动 记 
录 。 参 数 传递 方式 将 在 7.5 节 中 讨论 。 在 运行 栈 中 ， 调 用 者 的 活动 记录 刚好 处 于 被 调用 者 的 下 
面 ， 如 图 7-14 所 示 ， 因 此 把 参数 域 和 可 能 有 的 返回 值 域 放 在 紧 靠 调用 者 活动 记录 的 地 方 是 有 好 
处 的 。 调 用 者 可 以 根据 它 自 己 活 动 记录 的 末端 的 偏 移 来 访问 这 些 域 ， 无 须知 道 被 调用 者 的 活动 
记录 的 整个 布局 。 尤 其 是 , 对 调用 者 来 说 , 根本 没有 必要 知道 被 调用 者 的 局 部 数据 和 临时 数据 。 
这 种 信息 隐蔽 的 另 一 好 处 是 能 够 处 理 参数 个 数 可 变 的 过 程 ， 如 C 语 言 的 标准 库 函 数 printf， 
这 个 问题 将 在 后 面 讨论 。 

Pascal 语 言 要 求 在 编译 时 就 能 够 确定 过 程 的 局 部 数组 的 长 度 。 但 是 ， 局 部 数组 的 长 度 常常 
依赖 于 传递 给 该 过 程 的 参数 值 。 在 这 种 情况 下 ， 过 程 的 所 有 局 部 数据 的 大 小 只 有 在 过 程 调 用 时 
才能 确定 。 处 理 变 长 数据 的 技术 本 节 稍 后 讨论 。 

下 面 给 出 的 调用 序列 受到 上 面 讨论 的 启发 。 如 图 7-14 所 示 ， 寄 存 器 top_sp 指 向 活动 记录 中 
机 器 状态 域 的 末端 ， 该 位 置 对 调用 者 是 已 知 的 ， 因 此 在 控制 转移 到 被 调用 过 程 之 前 它 用 来 置 
top_sp 的 值 。 被 调用 过 程 的 代码 可 以 使 用 相对 于 top_sp 的 偏 移 量 来 访问 它 的 临时 变量 和 局 部 数 
据 。 其 调用 序列 是 : 

1. 调用 者 计算 实 参 。 








O ”如果 一 个 过 程 被 调用 "次 ， 则 不 同调 用 者 中 调用 序列 的 一 部 分 可 能 被 生成 mx 次 。 但 是 ， 被 调用 者 中 的 这 部 分 可 
以 被 所 有 的 调用 所 共享 ， 所 以 它 只 被 生成 一 次 。 因 此 ， 要 求 将 调用 序列 中 尽 可 能 多 的 内 容 放 到 被 调用 者 中 。 
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2. 调用 者 把 返回 地 址 和 top_sp 的 旧 值 存 和 人 被 调用 者 的 活动 记录 中 。 调 用 者 然后 将 top_sp 
的 值 增加 到 图 7-14 所 示 的 位 置 ， 即 top_sp 移 过 调用 者 的 局 部 数据 域 和 临时 变量 域 以 及 被 调用 者 
的 参数 域 和 状态 域 。 

3. 被 调用 者 保存 寄存 器 值 和 其 他 机 器 状态 信息 。 

4. 被 调用 者 初始 化 其 局 部 数据 ， 并 开始 执行 。 

一 个 可 能 的 返回 序列 如 下 : 

1. 被 调用 者 将 返回 值 放 人 邻近 调用 者 的 活动 记录 的 地 方 。 

2. 利用 状态 域 中 的 信息 ， 被 调用 者 恢复 top_sp 和 其 他 寄存 器 ， 并 且 按 调用 者 代码 中 的 返 
回 地 址 返回 。 

3. 尽管 top_sp 的 值 减 小 了 ， 但 调用 者 可 以 将 返回 值 复制 到 自己 的 活动 记录 中 ， 并 用 它 来 
计算 一 个 表达 式 。 






参数 和 返回 值 


top-sp 


图 7-14 调用 者 和 被 调用 者 之 间 的 任务 划分 


上 面 的 调用 序列 使 被 调用 的 过 程 的 参数 个 数 依赖 于 调用 。 注 意 ， 编 译 时 ， 调 用 者 的 目标 代 
码 知道 它 提供 给 被 调用 者 的 参数 个 数 ， 所 以 调用 者 知道 参数 域 的 大 小 。 但 是 ， 被 调用 者 目标 代 
码 必 须 准 备 应 付 参数 个 数 不 同 的 各 种 调用 ， 所 以 直到 它 被 调用 时 才 检 查 参 数 域 。 使 用 图 7-14 所 
示 的 存储 组 织 形式 , 描述 参数 的 信息 放 在 与 状态 域 相 邻 的 地 方 , 这样 ,被 调用 者 才能 够 找到 它 。 
例如 ， 考 虑 C 语 言 的 标准 库 函 数 printf， 它 的 第 一 个 参数 指出 了 其 余 参 数 的 性 质 ， 所 以 一 旦 
printf 能 够 确定 第 一 个 参数 的 位 置 ， 就 能 够 找到 其 余 的 参数 。 
7.3.2.2 变 长 数据 

图 7-15 给 出 了 一 种 处 理 变 长 数据 的 常用 策略 ， 其 中 过 程 p 有 三 个 局 部 数组 。p 的 活动 记录 
中 并 不 存储 这 些 数 组 ， 只 保存 指向 每 个 数组 起 始 位 置 的 指针 。 相 关 指 针 的 地 址 在 编译 时 是 已 知 
的 ， 这 样 目标 代码 可 以 通过 指针 访问 数组 元 素 。 

图 7-15 中 还 显示 了 p 所 调用 的 过 程 g。q 的 活动 记录 在 p 的 数组 后 面 ， 然 后 是 & 的 变 长 数组 。 

通过 两 个 指针 top 和 top_sp 访问 栈 中 的 数据 。 第 一 个 指针 指出 实际 的 栈 顶 ， 它 指向 要 存放 
下 一 个 活动 记录 的 开始 位 置 。 第 二 个 指针 用 于 找 出 局 部 数据 。 为 了 与 图 7-14 的 组 织 形式 一 致 
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假定 top_sp 指向 机 器 状态 域 的 木 端 。 在 图 7-15 中 ，rop_sp 指向 a 的 活动 记录 的 机 器 状态 域 的 
末端 。 在 这 个 域内 ， 有 一 个 指向 当 控 制 在 p 的 活动 中 时 的 top_sp 值 的 控制 链 。 

使 用 活动 记录 中 这 两 个 域 的 大 小 可 以 在 编译 时 生成 保存 top 和 top_sp 的 代码 。 当 q 返回 
It, top 的 值 就 是 fop_sp WA a 的 活动 记录 中 机 器 状态 域 和 参数 域 的 长 度 。 至 少 对 调用 者 来 说 ， 
该 长 度 在 编译 时 是 已 知 的 。 调 整 top 以 后 ，top_sp 的 新 值 可 以 从 a 的 控制 链 中 复制 过 来 。 


T 


P 的 活动 记录 


top_sp 











top 


图 7-15 访问 动态 分 配 的 数组 


7.3.3 8251 
只 要 存储 空间 可 以 释放 ， 壤 空 引用 问题 就 会 出 现 。 引 用 某 
个 已 经 释放 的 存储 单元 就 叫做 悬空 引用 。 使 用 悬空 引用 是 逻辑 


错误 ， 因 为 按 大 多 数 语言 的 语义 ， 被 释放 的 存储 单元 的 值 是 没 int spi jel), 
有 定义 的 。 更 糟糕 的 是 ， 因 为 这 种 存储 单元 后 来 可 能 又 分 配给 } P “_ 
ABE, EAB AE PSA Oy OR. int *dangle() 

例 7.6 ”图 7-16 中 C 语 言 程序 的 过 程 dangle 返回 指向 绑 定 到 int i = 23; 


局 部 名 i 的 存储 单元 的 指针 。 这 个 指针 由 算 符 & 作 用 于 i 来 产生 。 return 81; 
当 控制 从 dangle 返回 到 main 时 ， 局 部 变量 的 存储 空间 已 经 释 
放 ， 并 可 以 另 作 他 用 。 因 为 main 中 的 p 引用 这 个 存储 单元 ， 所 图 7-16 指针 p 指向 已 释放 


以 p 的 使 用 是 悬空 引用 。 g 空间 的 C 程序 
7.7 节 的 一 个 例子 包含 了 程序 控制 下 的 空间 释放 。 
7.3.4 EAEE 


上 面 讨 论 的 栈 式 存储 分 配 策略 在 下 列 情况 下 不 能 使 用 : 
1. 活动 结束 时 必须 保持 局 部 名 字 的 值 。 
2. 被 调用 者 的 活动 比 调 用 者 的 活动 的 生存 期 长 。 这 种 现象 在 使 用 活动 树 来 正确 描绘 过 程 间 
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的 控制 流 的 语言 中 是 不 能 发 生 的 。 
在 上 面 任何 一 种 情况 下 ， 活 动 记录 的 释放 都 不 能 使 用 后 进 先 出 的 形式 ， 所 以 存储 空间 不 能 组 织 
成 栈 。 
堆 式 存储 分 配 是 把 连续 存储 区 域 分 成 块 ， 当 活动 记录 或 其 他 对 象 需要 时 就 分 配 。 块 的 释放 
可 以 按 任 意 次 序 进行 ， 所 以 经 过 一 段 时 间 后 ， 堆 可 能 包含 交错 的 正在 使 用 的 和 已 经 释放 的 区 域 。 
活动 记录 的 堆 式 存储 分 配 和 栈 式 存储 分 配 的 区 别 可 以 从 图 7-17 和 图 7-13 中 看 出 。 在 图 7-17 中 ， 
过 程 r 的 活动 记录 在 该 活动 结束 后 仍然 保持 ， 新 的 活动 a (1, 9) 的 活动 记录 不 能 像 图 7-13 中 那 
样 在 物理 上 跟随 s 的 活动 记录 。 现 在 ， 如 果 z 的 活动 记录 被 释放 ， 那 么 在 此 堆 中 ，s Mall, 9) 
活动 记录 间 有 一 块 空闲 区 ， 由 堆 管 理 器 去 重新 使 用 这 个 空间 。 









在 活动 树 中 的 位 置 堆 中 的 活动 记录 





为 < 保持 的 活动 记录 








rq(1,9) 


图 7-17 堆 中 活动 记录 不 必 相 邻 

堆 管 理 的 效率 问题 是 数据 结构 理论 中 一 个 比较 特殊 的 问题 ，7.8 节 将 再 次 介绍 。 通 常 使 用 
堆 管 理 器 会 有 一 些 时 间 和 空间 开销 。 当 活动 记录 较 小 或 其 大 小 可 预知 时 ， 为 提高 效率 可 按 如 下 
的 特殊 方式 处 理 ; 

1. 对 每 一 个 感 兴趣 的 活动 记录 大 小 ， 保 存 一 个 相应 大 小 的 空闲 块 的 链表 。 

2. 可 能 的 话 ， 为 大 小 为 ;的 请 求 分 配 一 个 大 小 为 的 块 ， 其 中 s' 是 大 于 等 于 s 的 最 小 块 。 当 该 
块 最 终 被 释放 后 ， 将 其 链 回 原来 的 空闲 块 链表 。 

3. 对 于 大 块 存储 空间 ， 使 用 堆 管理 器 管理 。 

这 种 方法 将 导致 对 较 小 存储 空间 的 快速 分 配 与 释放 ， 因 为 从 指针 列表 中 获取 和 返回 块 的 操 
作 是 高 效 的 。 对 于 多 数 存储 空间 来 说 ， 需 要 相当 的 计算 时 间 才 能 耗 尽 ， 因 此 与 执行 计算 所 花 的 
时 间 相 比 ， 存 竺 分 配 所 花 的 时 间 是 可 以 忽略 的 。 


7.4 对 非 局 部 名 字 的 访问 


上 一 节 的 存储 分 配 策略 适用 于 本 节 讨 论 的 非 局 部 名 字 的 访问 ， 虽 然 讨 论 是 基于 活动 记录 的 
栈 式 分 配 的 ， 但 同样 的 思想 亦 可 用 于 堆 式 分 配 。 

语言 的 作用 域 规则 确定 了 如 何 处 理 非 局 部 名 字 的 访问 。 一 种 常用 的 规则 称 为 词法 作用 域 规 
则 或 静态 作用 域 规则 。 它 仅仅 根据 程序 正文 即 可 确定 用 于 名 字 的 声明 。 许 多 语言 ， 如 Pascal、 
C 和 Ada， 都 使 用 词法 作用 域 规则 ， 并 加 上 下 面 所 讨论 的 “最 近 嵌 套 ” 规 则 。 另 一 种 规则 叫做 
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动态 作用 域 规则 ， 它 在 运行 时 根据 当前 的 活动 来 决定 用 于 名 字 的 声明 。Lisp、APL 和 Snobol 
是 使 用 动态 作用 域 的 语言 。 

我 们 首先 从 程序 块 和 “最 近 嵌 套 ” 规 则 开始 讨论 ， 然 后 考虑 在 像 C 语 言 这 样 的 语言 中 用 到 
的 非 局 部 名 字 。C 语言 使 用 的 是 词法 作用 域 规则 ， 所 有 的 非 局 部 名 字 绑 定 到 静态 分 配 的 存储 单 
元 中 ， 不 允许 嵌 套 的 过 程 说 明 。 

在 像 Pascal 这 样 的 语言 中 ， 它 们 有 镶 套 过 程 和 词法 作用 域 ， 属 于 不 同 过 程 的 名 字 可 能 是 某 
一 个 时 刻 的 环境 的 一 部 分 。 寻 找 包 含 绑 定 到 非 局 部 名 字 的 存储 单元 的 活动 记录 有 两 种 办 法 : 访 
问 链 和 display。 我 们 将 分 别 讨 论 。 

最 后 一 节 讨 论 动态 作用 域 的 实现 。 

7.4.1 程序 块 

程序 块 本 身 是 含有 局 部 数据 声明 的 语句 。 程 序 块 的 概念 起 源 于 Algol 语言 ， 在 C 语 言 中 ， 
程序 块 的 语法 是 : {声明 语句 }。 

程序 块 的 一 个 特点 是 它 的 嵌 套 结构 。 分 界 符 标记 程序 块 的 开始 和 结束 。C 语言 用 括号 “位 
和 “} ”来 作为 分 界 符 ， 而 Algol 语 言 的 传统 是 用 begin 和 end 作为 分 界 符 。 分 界 符 保证 程序 
块 不 是 互相 独立 便 是 一 个 嵌 在 另 一 个 里 面 ， 不 可 能 出 现 程 序 块 B! 和 程序 块 B X, BD 先 
于 Bo 开始 又 先 于 B, 结 束 的 情形 。 这 种 骨 套 性 有 时 又 称 作 程序 块 结构 。 

程序 块 语言 中 声明 的 作用 域 由 下 面 的 最 近 赃 套 规则 给 出 : 

1. 程序 块 B 中 声明 的 作用 域 包 括 Bo 

2. 如 果 名 字 x 没有 在 B 中 声明 ， 那 么 B 中 x 的 出 现 是 在 外 围 程序 块 B' 对 x 的 声明 的 作用 
域 中 ， 且 满足 : i) B' 有 x 的 声明 ; 并 且 ii) B 比 其 他 任何 包含 x 的 声明 的 程序 块 更 接近 被 冉 
套 的 B。 

图 7-18 中 的 每 个 声明 给 被 声明 名 字 置 的 初 值 是 它 所 在 的 程序 块 编导 。B。 中 b 声明 的 作用 域 
不 包括 B, TEA PH B-B, AAE B 中 b 被 重新 声明 了 。 这 样 的 间隙 在 声明 的 作用 域 中 
FAW (hole )。 

F7-18 FRF AY BRT SU RR EE, TERRE, See ERR 
前 的 点 进入 程序 块 ， 从 恰好 在 块 之 后 的 点 离开 程序 块 。 因 此 ， 打 印 语句 按照 B, Bs, By 和 Bo 
的 次 序 执行 ， 这 正 是 控制 离开 这 些 程序 块 的 次 序 。 在 这 些 程序 块 中 ，a 和 b 的 值 分 别 为 : 


程序 块 结构 可 以 用 栈 式 分 配 来 实现 。 因 为 声明 的 作用 域 决 不 会 超出 它 所 在 的 程序 块 。 所 以 
被 声明 名 字 的 存储 空间 可 以 在 控制 进入 程序 块 时 分 配 ， 在 控制 离开 程序 块 时 释放 。 这 种 观点 把 
程序 块 看 成 无 参 过 程 ， 它 仅 在 程序 块 前 面 的 点 被 调用 ， 并 且 仪 返回 到 该 程序 块 后 面 的 点 。 程 序 
块 的 非 局 部 环境 的 维护 可 以 用 本 节 后 面 讨论 的 用 于 过 程 的 技术 ， 不 过 程序 块 比 过 程 简单 ， 因 为 
没有 参数 传递 ， 并 且 控 制 只 能 沿 静 态 程序 正文 进入 和 退出 程序 块 。 

另 一 种 实现 是 每 次 为 一 个 完整 的 过 程 体 分 配 存 储 空 间 。 如 果 在 过 程 中 有 程序 块 ， 则 要 为 这 


O ”从 一 个 程序 块 到 外 围 程序 块 的 转移 可 以 通过 将 外 围 块 的 活动 记录 弹出 栈 来 实现 。 某 些 语言 允许 跳 转 到 某 个 
程序 块 的 转移 。 在 控制 按 这 种 方式 转移 之 前 ， 需 要 为 源 程序 块 建立 活动 记录 。 至 于 怎样 初始 化 这 些 活动 记 
录 中 的 局 部 数据 ， 要 由 语言 的 语义 来 确定 。 


> 


> 
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些 程序 块 中 的 声明 留 出 所 需 的 存储 空间 。 对 于 图 7-18 中 程序 块 Bo， 可 以 如 图 7-19 所 示 分 配 存 储 
空间 。 局 部 量 a 和 ? 的 下 标 用 来 标识 声明 它们 的 程序 块 。 注 意 ， 可 以 为 a 和 bs 分 配 同 一 个 存 
储 单元 ， 因 为 它们 所 在 的 程序 块 不 会 同时 都 是 活 牙 的 。 


main( ) 


{ 





int a = 0; 
int a = 0; int b = 0; By ~ B, 
int b = 0; int b = 1; | B,~B; 
{ int a = 2; B, 
: int b = 1; int b = 3; B, 
{ 
B, int a = 2; 
: : : printf("%d %d\n", a, b); 
Bo : } 
: B, int b = 3; 


: printf("%d %d@\n", a, b); 
} 

: printf("%d %d\n", a, b); 

} 

printf("%d@ %d@\n", a, b); 


图 7-18 一 个 C 语言 程序 中 的 程序 块 
当 没 有 变 长 数据 时 ， 一 个 程序 块 的 执行 所 需要 的 最 
大 存储 空间 可 以 在 编译 时 确定 。( 变 长 数据 可 以 用 像 7.3 
节 那 样 的 指针 来 处 理 。) 在 确定 其 存储 空间 时 ， 我 们 保守 
地 假定 程序 中 所 有 的 控制 路 径 都 会 被 真正 地 执行 到 。 也 
就 是 说 ， 我 们 假定 条 件 语句 的 then 和 else 部 分 都 将 被 执 
413) 行 到 ， 而且 while 循环 中 的 所 有 语句 都 将 被 执行 到 。 图 7-19 图 7-18 中 所 声明 名 字 的 存储 
7.4.2 ARETEH AEM 
ATCHa PREM €XAABRE, AARM TF EERE A MAERA Ee Pascal 
语言 的 词法 作用 域 规则 简单 ， 也 就 是 








说 C 语 言 中 过 程 的 定义 不 能 出 现在 另 oa) tee a eee} 

一 个 过 程 中 。 如 图 7-20 所 示 ， 一 段 C int partition(y,z) int y, 23 { ... 
程序 由 一 系列 的 变量 声明 和 过 程 (Cc quicksort (m,n) int m, n; { ... 
语言 中 称 为 函数 ) 组 成 。 如 果 某 个 函 maino fo a) 


数 中 出 现 了 对 名 字 a 的 非 局 部 引用 ， 图 7-20 含有 对 a 的 非 局 部 引用 的 C 语 言 程序 

则 a 必 须 在 所 有 函数 之 外 声明 。 在 函数 之 外 的 声明 的 作用 域 包含 声明 后 面 的 函数 体 ， 除 非 它 在 
某 个 函数 中 重新 被 声明 。 在 图 7-20 中 ,在 readarray, partition 和 main 中 出 现 的 非 局 
部 名 字 a 指 的 是 第 一 行 中 声明 的 数组 。 

在 没有 网 套 过 程 的 情况 下 ，7.3 节 中 对 局 部 名 字 的 栈 式 存储 分 配 策 略 可 以 直接 用 于 C 这 样 的 
词法 作用 域 语言 。 在 任何 过 程 之 外 声明 的 所 有 名 字 的 存储 空间 可 以 静态 地 分 配 。 这 些 存储 空间 
的 位 置 在 编译 时 是 已 知 的 ， 所 以 如 果 一 个 名 字 在 过 程 体内 是 非 局 部 的 ， 则 只 需 使 用 静态 分 配 的 
地 址 空间 。 任 何其 他 的 名 字 都 必须 是 栈 顶 活动 的 局 部 名 字 ， 可 通过 top 指 针 访问 。 但 是 该 方法 
不 能 用 于 幢 套 过 程 ， 因 为 一 个 非 局 部 名 字 可 能 指向 一 个 处 于 堆栈 深 处 的 数据 ， 下 面 我 们 将 对 此 
进行 讨论 。 
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非 局 部 名 字 的 静态 分 配 的 一 个 重要 的 优点 在 于 声明 的 过 程 可 以 自由 地 作为 参数 进行 传递 和 
作为 结果 返回 (C 语 言 中 函数 的 传递 是 通过 指向 函数 的 指针 进行 的 )。 因 为 是 词法 作用 域 ， 而 
且 不 包含 构 套 过 程 ， 因 此 一 个 过 程 的 非 局 部 名 字 对 任何 过 程 也 是 非 局 部 的 。 它 的 静态 地 址 可 以 
被 所 有 过 程 使 用 ， 无 论 它 是 否 是 活动 的 过 程 。 类 似 地 ， 如 果 过 程 作为 结果 返回 ， 该 过 程 中 的 非 
局 部 变量 直接 指向 为 它们 分 配 的 静态 存储 空间 。 

例如 ,考虑 图 7-21 中 的 Pascal 程序 。 名 字 m 的 所 有 出 现 ， 在 图 7-21 中 用 圆圈 标识 ， 都 在 第 
(2) 行 中 声明 的 作用 域内 。 由 于 m 对 程序 中 所 有 的 过 程 都 是 非 局 部 的 ， 所 以 它 的 存储 空间 可 以 
静态 分 配 。 过 程 E 和 g 无 论 何 时 运行 ， 都 可 以 通过 静态 的 地 址 来 访问 m。fE 和 g 作为 参数 传递 
这 一 事实 只 影响 它们 处 于 活跃 状态 的 时 间 ， 但 不 会 影响 它们 对 m 值 的 访问 方式 。 

更 详细 地 说 ， 第 (11) 行 的 调用 b(t) ame f MES h 联系 起 来 。 当 第 (8) 行 
write (h (2)) 中 调用 形 参 hit, 函数 £ 被 激活 。f 的 活动 将 返回 2， 因为 非 局 部 变量 m 的 值 
是 0 而 形 参 n 的 值 为 2。 接 着 向 下 执行 ， 调 用 b(g) Ho 与 h 联系 起 来 ,这 时 ， 对 的 调用 将 
激活 g。 程 序 的 输出 为 


2 0 


7.4.3 包含 嵌 套 过 程 的 词法 作用 域 


在 Pascal 语 言 中 ， 如 果 一 个 过 程 对 名 字 a 进行 非 局 部 引用 ， 则 a 应 属于 静态 程序 代码 中 离 
a 最 近 的 谋 套 声明 的 作用 域 。 





(1) program pass(input, output); 
var @): integer; 
function f(n : integer) : integer; 
begin f :=@)+ n end { £ }; 
function g(n : integer) : integer; 
begin g := + n end { g }; 


procedure b(function h(n : integer) : integer); 
begin write(h(2)) end { b }; 


begin 
:= 0; 
b(f)}; blg); writeln 
end. 





图 7-21 带 有 nm 的 非 局 部 出 现 的 Pascal 程序 
图 7-22 中 Pascal 程序 的 骨 套 过 程 定 义 表示 为 如 下 的 缩 进 形式 ; 


sort 
readarray 
exchange 
quicksort 
partition 


图 7-22 中 第 (15) 行 出 现 的 a AFREEN quicksort 中 的 partition BM. tah 
最 近藤 套 声明 在 第 (2) 行 ， 其 作用 域 包括 整个 程序 。 最 近 艇 套 规则 对 过 程 名 同样 适用 。 在 第 (17) 
行 中 被 partition 调用 的 过 程 exchange 对 于 partition 而 言 是 非 局 部 的 。 使 用 该 规则 ， 


我 们 首先 检查 exchange 是 否 在 quicksort 中 定义 ; 因为 没 定义 ， 所 以 我 们 在 主 程序 sort 
中 寻找 它 的 定义 。 


> 
A 


A 
a 
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(1) program sort(input, output); 
var a : array [0..10] of integer; 
x : integer; 


procedure readarray; 
var i : integer; 
begin ... a... end { readarray }; 


procedure exchange( i, j: integer); 
begin 
x := afi}; ali] := a[{j]; alj] : 
' end { exchange } ; 
procedure quicksort(m, n: integer); 
var k, v : integer; 


function partition(y, z: integer): integer; 
var i, j : integer; 
begin ... a... 


OVa’ 
. exchange(i,j); ... 
end { partition } ; 


begin ... end { quicksort }; 


begin ... end { sort } . 


图 7-22 —* RA RELE Pascal 程序 





7.4.3.1 KERE 

下 面 用 过 程 的 嵌 套 深度 这 一 概念 来 实现 词法 作用 域 。 令 主 程序 名 的 馈 套 深度 为 1， 从 一 个 
包围 过 程 进入 一 个 被 包围 过 程 时 嵌 套 深度 加 1。 在 图 7-22 中 ， 第 (11) 行 的 过 程 quicksort 的 巾 
套 深 度 为 2， 而 第 (13) 行 的 partition 过 程 的 钳 套 深度 为 3。 对 于 每 个 出 现 的 名 字 ， 我 们 将 它 
和 它 所 在 的 过 程 的 其 套 深 度 联 系 在 一 起 。 在 第 (153)~(17) 行 partition 过 程 中 的 a、v 和 i 的 出 
MAIRA RERE, 203, 
7.4.3.2 访问 链 


嵌 套 过 程 的 词法 作用 域 的 一 种 直接 实现 方式 是 为 每 个 活动 记录 增加 一 个 称 为 访问 链 的 指 
针 。 如 果 在 源 代码 中 过 程 p 直接 嵌 套 在 过 程 aF, M p 的 活动 记录 的 访问 链 指 向 G 的 最 近 一 
次 活动 的 活动 记录 的 访问 链 。 

图 7-22 中 的 程序 执行 时 ， 运 行 时 刻 栈 的 情况 如 图 7-23 所 示 。 再 强调 一 次 ， 为 了 节省 空间 ， 
图 中 只 显示 了 每 个 过 程 名 字 的 第 一 个 字母 。 因 为 没有 包含 sort 的 过 程 ， 所 以 sort 的 活动 记 
录 中 访问 链 为 宝 。quicksort 的 每 个 活动 记录 的 访问 链 都 指向 sort。 注 意 ， 在 图 7-23c 中 ， 
partition(1,3) 的 活动 记录 的 访问 链 指 向 最 近 的 quicksort 的 活动 记录 ， 即 quicksort 
(1,3). 

假设 过 程 p 的 垦 套 深度 为 n, p 中 引用 了 非 局 部 的 a, HP a MRREREN na, noXnyo 
可 以 按 以 下 的 步骤 找到 a 的 存储 位 置 。 

1. 当 控制 在 p 中 时 ，p 的 活动 记录 在 栈 顶 ， 下 面 是 n -n MESE. nn. 的 值 可 以 在 编译 
时 预先 计算 得 到 。 如 果 一 个 活动 记录 中 的 访问 链 指向 另 一 个 活动 记录 中 的 访问 链 ， 则 可 以 通过 
一 个 间接 操作 来 跟踪 该 访问 链 。 

2. 经 过 mm-m 个 访问 链 ， 到 达 包 含 a 这 一 局 部 名 的 过 程 的 活动 记录 。 如 上 一 节 所 讨论 的 ， 
a 的 位 置 用 活动 记录 中 相对 于 某 个 位 置 的 一 个 固定 偏 移 量 表示 。 特 别 地 ， 偏 移 量 也 可 以 是 相对 
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于 访问 链 的 。 





图 7-23 寻找 非 局 部 名 字 存 储 位 置 的 访问 链 


因此 ， 过 程 p 中 非 局 部 名 a 的 地 址 可 以 由 以 下 序 对 给 出 ， 它 的 值 是 在 编译 时 计算 的 ， 并 
存放 在 符号 表 中 : 

( np-na， 包 含 a 的 活动 记录 中 的 偏 移 量 ) 
上 式 的 第 一 部 分 给 出 了 需要 遍历 的 访问 链 的 数量 。 

例如 ， 图 7-22 中 第 (13) 和 (16) 行 钳 套 深度 为 3 的 过 程 partition 引用 了 嵌 套 深度 分 别 为 1 
和 2 的 非 局 部 的 a 和 vv。 从 partition 的 活动 记录 开始 ， 分 别 沿 着 3-1 = 2 和 3-2 = 1 个 访问 链 
就 可 以 找到 包含 这 些 非 局 部 名 字 的 活动 记录 。 

用 于 建立 访问 链 的 代码 属于 调用 序列 的 一 部 分 。 假 设 嵌 套 深度 为 n, 的 过 程 p ARBRE 
为 挛 的 过 程 x， 用 于 建立 被 调用 过 程 访问 链 的 代码 依赖 于 被 调用 过 程 是 否 结 套 在 调用 过 程 中 。 

1. np< nn 的 情况 。 由 于 被 调用 过 程 x 比 p 处 于 更 深层 的 能 套 ， 它 必须 在 p PEN, SME 
对 于 p 来 说 将 是 不 可 访问 的 。 在 图 7-23a 中 过 程 sort 调用 过 程 quicksort 以 及 图 7-23c 中 过 
FE quicksort 调用 过 程 partition 都 会 发 生 这 种 情况 。 此 时 ， 被 调用 过 程 的 访问 链 必 须 指 
向 栈 中 刚好 在 下 方 的 调用 过 程 的 活动 记录 的 访问 链 。 

2. n > 上 凡 的 情况 。 根 据 作 用 域 规则 ， 调 用 和 被 调用 过 程 的 能 套 深度 为 1, 2, …, nn -1 的 外 围 
过 程 必 须 相 同 。 例 如 ， 图 7-23b 中 quicksort 调用 它 自 身 和 图 7-23d 中 partition 调用 
exchange。 从 调用 者 开始 ， 沿 着 n-n+1 个 访问 链 ， 就 可 以 到 达 包 围 调用 和 被 调用 过 程 并 离 
它们 最 近 的 过 程 的 当前 活动 记录 。 这 时 到 达 的 访问 链 就 是 被 调用 过 程 中 的 访问 链 所 指向 的 访问 
链 。 同 样 ，m -n. +1 可 以 在 编译 时 计算 。 
7.4.3.3 过 程 的 参数 

即使 向 套 过 程 作为 参数 传递 ， 词 法 作用 域 规 则 仍然 适用 。 图 7-24 中 的 Pascal 程序 的 第 (6) 和 
(7) 行 的 函数 E 中 包含 一 个 非 局 部 的 m; 程序 中 所 有 m 的 出 现 都 用 圆圈 标示 出 来 。 在 第 (8) 行 ， 
过 程 c 将 0 赋 给 m， 然 后 将 f 作 为 参数 传递 给 b。 注 意 ， 第 (3) 行 中 声明 的 m 的 作用 域 并 不 包括 第 
(2) 行 和 第 (3) 行 的 b 的 过 程 体 。 
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(1) program param(input, output); 


(2) procedure b(function h(n:integer): integer); 
(3) begin writeln(h(2)) end { b }; 

(4) procedure c; 

(5) var @): integer; 

(6) function f(n : integer) : integer; 

(7) begin f := 四 + n end { f }; 

(8) begin(m:= 0; b(f) end { c }; 

(9) begin 

(10) c 

(11) end. 





图 7-24 一 个 必须 用 实 参 工 传递 的 访问 链 

E b 的 过 程 体 内 ， 语 句 writeln (h (2) ) 将 激活 f, AXES n 引用 了 f。 也 就 是 说 ， 
writeln 将 打印 调用 f (2) 的 结果 。 

如 何 建 立 £ 的 活动 记录 的 访问 链 呢 ? 答案 如 图 7-25 所 示 ， 一 个 作为 参数 传递 的 艇 套 过 程 必 
须 和 它 的 访问 链 一 起 被 传递 。 当 过 程 c 传递 参数 £ 时 ， 一 一 一 | 
就 像 调用 f 一 样 为 f 建立 一 个 访问 链 ， 这 个 访问 链 同上 
一 起 传 给 b。 然 后 ， 当 £ 在 b 中 被 激活 时 ， 这 个 访问 
链 被 用 来 建立 f 的 活动 记录 的 访问 链 。 
7.4.3.4 display 表 

通过 使 用 称 之 为 display 表 的 一 个 指向 活动 记录 的 
指针 数组 4， 可 以 实现 比 使 用 访问 链 要 快 的 对 非 局 部 
名 字 的 访问 。 我 们 维护 display 表 使 得 谨 套 深度 为 i 的 
非 局 部 名 字 a 所 在 的 活动 记录 就 是 display 表 中 di} 76 
素 所 指向 的 活动 记录 。 

假设 当前 控制 处 于 嵌 套 深度 为 j 的 过 程 p 的 活动 
WFF., WA, display 表 中 的 前 j-1 个 元 素 指向 按 词 
法 作用 域 规则 包围 过 程 p 的 那些 过 程 的 最 新 的 活动 记 a seen 
录 ， 而 dl) 则 指向 p 的 活动 记录 。 一 般 而 言 ， 使 用 图 725 RS RAEI 
display 表 要 比 沿 着 访问 链 搜索 快 ， 因 为 包含 非 局 部 名 字 的 活动 记录 是 通过 访问 d 的 一 个 元 素 
找到 的 ， 仅 仅 经 过 了 一 个 指针 。 

维护 display 表 的 一 种 简单 方法 是 在 使 用 display 表 的 同时 使 用 访问 链 。 作 为 调用 序列 和 返 
回 序列 的 一 部 分 ， 通过 沿 着 访问 链 访问 来 更 新 display 表 。 当 一 个 氮 套 深度 为 n 的 活动 记录 被 
跟踪 ，display 表 的 元 素 dtn] 被 设置 为 指向 该 活动 记录 的 指针 。 实 际 上 ，display 表 复制 了 访问 
链 中 的 信息 。 

以 上 的 简单 方法 可 以 改进 如 下 。 如 果 过 程 没有 作为 参数 传递 ， 一 般 情 况 下 图 7-26 中 的 方法 
在 过 程 进 入 和 退出 时 需要 较 少 的 工作 。 在 图 7-26 中 ，display 表 包 含 一 个 独立 于 栈 的 全 局 数组 。 
它 给 出 了 图 7-22 中 程序 执行 时 的 情况 ， 仍 然 用 过 程 名 字 中 的 第 一 个 字母 代替 过 程 名 。 

图 7-26a 为 活动 q (1,3) 开始 前 的 情况 。 由 于 quicksort 的 铅 套 深度 为 >， 当 一 个 新 的 活动 
quicksort 开 始 时 ，display 表 的 元 素 d[2] 被 改变 ， 这 种 改变 如 图 7-26b 所 示 。d[2] 现在 指向 新 
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的 活动 记录 ，d[2] 原 有 的 值 在 新 的 活动 记录 中 被 保存 。 以 后 当 控制 交 回 到 q (1,9) 时 ， 被 保 
存 的 d[2] 的 值 将 被 用 来 恢复 图 7-26a 中 display 表 的 状态 。 





图 7-26 当 过 程 没有 被 作为 参数 传递 时 维护 display 表 


当 一 个 新 的 活动 开始 时 ，display 表 被 改变 ， 同 时 ， 当 控制 权 从 新 的 活动 中 返回 时 ，display 
表 的 状态 必须 被 恢复 。Pascal 等 词法 作用 域 语 言 的 作用 域 规则 允许 display 表 通 过 以 下 步骤 维 
护 。 我 们 只 讨论 过 程 不 作为 参数 传递 时 的 简单 情况 见 练习 7.8 )。 当 一 个 谱 套 深度 为 :的 过 程 的 
新 的 活动 开始 时 ， 

1. 在 新 的 活动 记录 中 保存 di] 的 当前 值 ， 同时 

2. 使 指向 新 的 活动 记录 。 
在 活动 结束 前 ，d[i] 被 恢复 为 已 保存 的 值 。 

上 述 步骤 的 验证 过 程 如 下 。 假 设 一 个 嵌 套 深度 为 j 的 过 程 调用 一 个 嵌 套 深度 为 i 的 过 程 。 
同 讨论 访问 链 时 一 样 ， 根 据 源 代码 中 被 调用 过 程 是 否 谋 套 在 调用 过 程 中 ， 可 以 分 为 两 种 情况 
进行 讨论 : 

1. j <i 的 情况 。i = j + 1 并 且 被 调用 过 程 嵌 套 在 调用 过 程 中 。display RMA J 个 元 素 不 需 
要 进行 改变 ， 我 们 将 d[ 刀 设 为 指向 新 的 活动 记录 。 这 种 情况 如 在 图 7-26a 中 sort 调 用 
quicksort 和 图 7-26c 中 quicksort 调用 partition 时 所 示 。 


但 ”注意 ，q (1,9) 还 保存 了 df2]， 虽 然 碰巧 第 二 个 display 元 窒 以 前 从 来 没有 被 使 用 ， 而 且 不 需要 被 恢复 。 对 于 
a 的 所 有 调用 ,保存 d[2] 比 运行 时 决定 此 存储 是 否 必要 要 容易 一 些 。 
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2. j Bi WRI, REREN, 2, …, 六 1 的 调用 和 被 调用 的 外 围 过 程 必须 相同 。 这 里 ,我 
们 在 新 的 活动 记录 中 保存 a 的 旧 值 ， 然 后 将 d[i] 指向 新 的 活动 记录 。display 表 将 被 正确 地 维 
护 ， 因 为 它 的 前 i-1 个 元 素 没 有 改变 。 

在 图 7-26b 中 ， 当 quicksort 被 递归 调用 时 就 是 情况 2 的 一 个 例子 ， 这 里 i = j= 2。 一 个 
更 好 的 例子 如 图 7-26d 所 示 ， 当 髓 套 深 度 为 3 的 活动 记录 p (1,3) 调用 藤 套 深度 为 2 的 e (1,3) 时 ， 
它们 的 外 层 过 程 是 构 套 深度 为 1 的 s (程序 在 图 7-22 中 )。 注 意 ， 当 e (1,3 ) 被 调用 时 ， 属 于 
p (1,3) 的 d [3] 的 值 仍 然 在 display 表 中 存在 ， 虽然 当 控 制 权 在 e 中 时 它 不 能 被 访问 。 如 果 e 
调用 另 一 个 嵌 套 深度 为 3 的 过 程 ， 该 过 程 会 存储 d [3] 的 值 并 在 返回 e 时 恢复 该 值 。 可 见 ， 每 个 
过 程 都 可 以 看 到 低 于 自己 嵌 套 深度 的 所 有 几 套 深度 的 display 表 。 

display 表 可 以 在 几 个 地 方 存放 。 如 果 有 足够 数量 的 寄存 器 ， 数 组 形式 的 display 表 可 以 是 
一 组 寄存 器 的 集合 。 注 意 ， 编 译 右 可 以 决定 这 个 数组 的 长 度 ， 也 就 是 程序 中 的 最 大 髋 套 深 度 。 
另外 ，display 表 可 以 保存 在 静态 分 配 的 内 存 中 ， 并 且 可 以 通过 适当 的 display 表 指 针 使 用 间接 
地 址 访问 活动 记录 。 在 支持 间接 寻 址 的 机 器 中 使 用 这 种 方法 比较 合适 ， 虽 然 每 次 间接 寻 址 将 耗 
费 一 次 内 存 循环 。 另 一 种 可 能 是 将 display 表 存 放 在 运行 时 堆栈 中 ， 在 每 个 过 程 的 人 口 建立 它 
的 一 个 新 的 复 本 。 
7.4.4 动态 作用 域 

在 动态 作用 域 中 ， 一 个 新 的 活动 记录 将 继承 已 经 存在 的 非 局 部 名 字 与 存储 空间 的 绪 定 。 被 
调用 的 活动 记录 中 的 一 个 非 局 部 名 字 a 同调 用 过 程 中 的 该 名 字 指 向 相同 的 存储 空间 。 对 于 被 调 
用 过 程 中 的 非 局 部 名 字 将 建立 新 的 绑 定 ， 该 名 字 指 向 新 的 活动 记录 中 的 存储 空间 。 

图 7-27 中 的 程序 说 明了 动态 作用 域 。 第 (3) 和 (4) 行 的 过 程 show 将 显示 非 局 部 名 < 的 值 。 根 据 
Pascal 的 词法 作用 域 规则 ， 非 局 部 名 r 是 在 第 Q2) 行 的 声明 的 作用 域 之 内 ， 因 此 该 程序 的 输出 是 














0.250 0.250 
0.250 0.250 (1) program dynamic(input,output); 
(2) var r : real; 
如 果 使 用 动态 作用 域 规则 , 输出 是 (3) procedure show; 
0.250 0.125 (4) begin write( r : 5:3 ) end; 
0.250 0.125 (5) procedure small; 
mo 、 、 ` (6) var r : real; 
在 第 (40 和 (10 行 ， 当主 程序 调用 show (7) begin r := 0.125; show end; 
过 程 时 ， 显 示 0 .250， 因 为 使 用 的 是 主 程序 (8) begin 
中 的 局 部 变量 r 。 然 而 ， 当 在 第 (7) 行 show (9) r := 0.25; 
被 过 程 small 调用 时 , 将 显示 0 .125， 因 (10) show; small; writeln; 
(11) show; small; writeln 
为 使 用 的 是 small 的 局 部 变量 ro (12) end. 
下 面 是 两 种 实现 动态 作用 域 的 方法 ， - 
它们 分 别 与 在 词法 作用 域 的 实现 中 使 用 的 7-27 ma 
访问 链 和 display 表 有 相似 之 处 。 "e 


1. 深 访问 。 从 概念 上 讲 ， 如 果 访 问 链 与 控制 链 指向 相同 的 活动 记录 则 得 到 动态 作用 域 。 一 
种 简单 的 实现 方法 是 分 配 访 问 链 并 使 用 榨 制 链 在 栈 中 查找 ， 直 到 找到 包含 非 局 部 名 字 的 存储 单 
元 的 第 一 个 活动 记录 。 深 搜索 一 词 就 来 源 于 这 种 搜索 可 能 会 深入 到 栈 中 这 一 事实 。 搜 索 的 深度 
取决 于 程序 的 输入 ， 并 且 不 能 在 编译 时 确定 。 

2. 浅 访问 。 这 种 方法 的 思想 是 将 每 个 名 字 的 当前 值 存储 在 静态 分 配 的 存储 空间 中 。 一 旦 过 
E p 开始 一 个 新 的 活动 记录 ，p 中 一 个 局 部 的 名 字 n 将 取代 为 n 静态 分 配 的 内 存 空间 。n 的 前 
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一 个 值 必须 保存 在 p 的 活动 记录 中 ， 当 该 活动 记录 结束 时 必须 恢复 n 的 值 。 

可 以 权衡 选择 这 两 种 方法 : 深 访问 在 访问 一 个 非 局 部 名 字 时 需要 较 长 的 时 间 ， 但 是 在 一 个 
活动 记录 开始 和 结束 时 没有 多 余 的 开销 。 浅 访问 可 以 直接 查找 非 局 部 名 ， 但 是 在 一 个 活动 记录 
开始 和 结束 时 需要 额外 的 时 间 开 销 来 维护 这 些 值 。 如 果 函 数 作为 参数 被 传递 和 作为 结果 被 返回 ， 
通过 深 访问 方法 能 够 获得 更 直接 的 实现 。 


7.5 参数 传递 


当 一 个 过 程 调用 另 一 个 过 程 时 ， 它 们 之 间 交 换 信 息 的 方法 通常 是 通过 非 局 部 名 字 和 被 调用 
过 程 的 参数 来 实现 的 。 图 7-28 的 过 程 使 用 了 非 局 部 名 字 和 参数 来 交换 a[i] 和 a[j] 的 值 。 这 
里 ， 数 组 a 对 过 程 exchange 是 非 局 部 的 ，i 和 j 是 参数 。 





(1) procedure exchange(i, j: integer); 


(2) var x : 
(3) begin 
(4) x := a[i]; ali) := alj]; afj] := x 
(5) end 


integer; 





图 7-28 带 有 非 局 部 变量 和 参数 的 Pascal 过 程 


木 节 将 讨论 形 参 和 实 参 相 关联 的 几 种 方法 。 包 括 传 值 调用 、 引 用 调用 、 复 制 -恢复 、 传 名 
调用 和 宏 扩展 。 了 解 语言 (或 编译 器 ) 所 使 用 的 参数 传递 方法 是 很 重要 的 ， 因 为 程序 的 结果 可 
能 依赖 于 所 使 用 的 方法 。 

为 什么 会 有 这 么 多 种 方法 呢 ? 不 同 的 方法 来 源 于 对 表达 式 代 表 什么 的 不 同 解释 。 像 a[il := 
alj] 这 样 的 赋值 语句 中 ， 表 达 式 alj) (RI, Mali] 代表 ali] 的 值 要 被 置 人 的 存储 单 
元 。 使 用 存储 单元 还 是 用 表达 式 所 代表 的 值 ， 取 决 于 表达 式 出 现在 赋值 号 的 左边 还 是 右边 。 同 
第 ? 章 一 样 ,， 术语 “ 左 值 ” 指 的 是 表达 式 所 表示 的 存储 单元 ,“ 右 值 ” 指 的 是 这 个 存储 单元 中 所 
存 的 值 。 所 谓 的 “ 左 ” 和 “ 右 ” 来 源 于 在 表达 式 的 左边 还 是 右边 。 

参数 传递 方法 之 间 的 区 别 主 要 是 基于 实 参 代 表 的 是 左 值 、 右 值 还 是 实 参 的 正文 本 身 。 
7.5.1 传 值 调 用 

在 某 种 意义 上 ， 传 值 调用 是 最 简单 的 参数 传递 方法 。 它 计算 实 参 ， 并 把 它 的 右 值 传 给 被 调 
用 过 程 。C 语言 使 用 传 值 调用 ， 
Pascal 的 参数 常常 也 按 此 方式 传递 ， 


program referencelinput ,output)}); 


本 章 到 目前 为 止 的 所 有 程序 都 是 按 这 
种 方法 传递 参数 的 。 传 值 调用 可 以 按 
下 面 的 方式 实现 : 

1. 把 形 参 当 作 局 部 名 字 看 待 ， 形 
参 的 存储 单元 在 被 调用 过 程 的 活动 记 
录 中 。 

2. 调用 者 计算 实 参 ， 并 把 其 右 值 
放 入 形 参 的 存储 单元 中 。 

传 值 调用 的 显著 特征 是 对 形 参 的 
运算 不 影响 调用 者 活动 记录 中 的 值 。 
如 果 图 7-29 的 第 (3) 行 没有 关键 字 


var a, b: integer; 
procedure swap(var x, y: integer); 
var temp : integer; 
begin 
temp := xX; 
x := y; 
y := temp 
end; 


begin 

a := 1; b := 2; 

swap(a,b); 

writeln(’a =’, a); writeln(’b =’, b) 
end. 








图 7-29 带 有 过 程 swap 的 Pascal 程序 
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var, Pascal 将 把 x 和 y 的 值 传 递 给 过 程 swap。 第 (12) 行 的 调用 swap (a,b) 不 会 改变 a 和 P 
的 值 。 传 值 调用 时 ， 调 用 swap (a,b) 的 效果 等 价 于 下 面 的 步 又: 


tem 


x<x 
rr i on 
xxu 


y := temp 


其 中 x、y M temp 是 swap 的 局 部 变量 。 虽 然 这 些 赋值 改变 了 局 部 变量 x、y 和 temp 的 值 ， 
但 当 控 制 从 这 个 调用 返回 且 swap 的 活动 记录 被 释放 时 ， 这 个 改变 将 消失 。 因 而 这 次 调用 没有 
影响 到 调用 者 的 活动 记录 。 
传 值 调用 的 过 程 只 能 通过 非 局 部 名 字 ( 见 图 7-28 中 的 exchange) 或 作为 值 传递 的 指针 来 
影响 其 调用 者 。 在 图 7-30 的 C 程 序 中 ， 第 (2) 行 的 x 和 y 声明 为 指向 整数 的 指针 ， 第 (8) 行 的 调 
5 用 swap (&a,&b) 中 的 & 操 作 符 将 导致 指向 a 和 b 的 指针 被 传 给 swap。 这 个 程序 的 输出 是 
425 





a is now 2, b is now 1 
在 这 个 例子 中 ， 指 针 的 使 用 指出 了 编译 器 怎样 用 引用 调用 来 交换 值 。 


swap(x,y) 
int *#x, #*y; 


{ int temp; 


temp = *x; #x = +y; +y = temp; 
} 
main( ) 
{ int a = 1, b= 2; 
swap( &a, &b ); 
printf("a is now %d, b is now *d\n",a,b); 








图 7-30 “在 传 值 过 程 调用 中 使 用 指针 的 C 程序 


7.5.2 引用 调用 
当 参 数 通 过 引用 ( 也 叫做 传 址 调用 或 传 位 置 调 用 ) 传递 时 ， 调 用 过 程 把 实 参 存储 单元 的 地 
址 传递 给 被 调用 过 程 : 


1. 如 果实 参 是 有 左 值 的 名 字 或 表达 式 ， 则 传递 这 个 左 值 本 身 。 


2. 如 果实 参 是 arb 或 2 这 样 的 表达 式 ， 它 没有 左 值 ， 则 计算 该 表达 式 的 值 并 存 人 新 的 存储 
单元 ， 然 后 传递 这 个 单元 的 地 址 。 


在 被 调用 过 程 的 目标 代码 中 ， 形 式 参 数 的 引用 是 通过 传 给 该 被 调用 过 程 的 指针 来 间接 引 
用 的 。 

例 7.7 考虑 图 7-29 中 的 过 程 swap。 用 i 和 alil 作为 调用 swap 的 实 参 ( 即 
swap (i,a[i]) ) 和 下 列 步骤 有 相同 的 效果 : 


1. 把 i Mali) 的 地 址 (AA) 复制 到 被 调用 过 程 的 活动 记录 ， 假 设 对 应 于 x My 的 位 
置 分 别 为 argl 和 arg2。 


2. 把 arg] 指向 的 单元 的 内 容 赋 给 temp (如 设置 tem 等 于 b, AF bÆ i 的 初 值 )。 这 
一 步 对 应 swap 的 定义 中 第 (6) 行 的 temp := xo 
3. 把 arg2 指向 的 单元 的 值 赋 给 argi 指向 的 单元 ， 即 i := all]. BAM swap 的 定 
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义 中 第 (7) 行 的 x := yo 

4. 让 arg2 指向 的 单元 的 内 容 等 于 temp AA, Blalh]:=-i. KEMMy:=tem. O 

有 一 些 语言 中 使 用 引用 调用 ，Pascal 的 var 参数 就 是 按 这 种 方式 传递 的 。 数 组 通常 都 通 
过 引用 传递 。 
7.5.3 复制 -恢复 

传 值 调 用 和 引用 调用 的 混合 叫做 复制 -恢复 连接 ( 也 称 为 复制 进 复 制 出 ， 或 传 值 结果 )。 

1. 在 控制 流 进 入 被 调用 过 程 之 前 计算 实 参 , 实 参 的 右 值 像 传 值 调用 那样 传递 给 被 调用 过 程 。 
此 外 ， 如 果实 参 有 左 值 的 话 ， 在 调用 之 前 确定 它 的 左 值 。 

2. 当 控 制 返回 时 , 将 形 参 的 当前 右 值 复 制 回 实 参 的 左 值 , 该 左 值 是 上 述 调 用 前 计算 的 左 值 。 
当然 ， 只 是 有 左 值 的 实 参 被 复制 。 

第 一 步 是 把 实 参 的 值 “ 复 制 进 ” 被 调用 过 程 的 活动 记录 (进入 形 参 的 存储 单元 ) ; 第 二 步 
是 把 形 参 的 值 “ 复 制 出 ”到 调用 过 程 的 活动 记录 中 即 调用 前 计算 的 实 参 的 左 值 )。 

使 用 复制 -恢复 的 方式 ，swap (i,ali] ) 仍 然 能 正确 工作 ， 因 为 alil 的 位 置 在 调用 前 由 调 
用 过 程 计 算 并 保存 。 所 以 ， 形 参 y 的 终 值 ， 即 i 的 初 值 ， 能 复制 到 正确 的 位 置 ， 即 使 afi] 的 单 
元 因 调 用 而 被 改变 了 ( 因为 i 的 值 已 变 )。 


(1) program copyout(input,output); 


某 些 Fortran 的 实现 使 用 了 复制 -恢复 (2) var a : integer; 
方式 ， 其 他 实现 使 用 引用 调用 。 如 果 被 调 人 
用 过 程 有 不 止 一 种 方式 访问 调用 者 的 活动 (5) begin 
记录 ， 则 可 以 看 出 两 种 参数 传递 方式 的 区 (6) a := 1; unsafe(a); writeln(a) 


别 。 图 7-31 中 第 (6) 行 的 调用 unsafe (a) Ce 
建立 的 活动 记录 可 以 把 a 作为 非 局 部 名 字 来 访 图 7-31 引用 调用 换 成 复制 -恢复 后 的 输出 变化 
问 ， 或 者 通过 x 访问 a。 在 引用 调用 方式 下 ， 对 x 和 a 的 赋值 都 立即 影响 a， 所 以 a 的 最 终 值 
是 0。 但 是 ,在 复制 -恢复 方式 下 ， 实 参 a 的 值 1 复制 到 形 参 x, T x 的 终 值 2 在 控制 刚好 返回 前 
复制 出 到 a 的 左 值 ， 所 以 a 的 终 值 是 2。 
7.5.4 传 名 调用 ` 

传 名 调用 由 Algo 中 的 复制 规则 定义 为 : 

1. 过 程 被 看 作 宏 ， 也 就 是 说 ， 在 调用 过 程 中 将 调用 替换 为 被 调 过 程 的 过 程 体 ， 但 要 把 任何 
一 个 出 现 的 形式 参数 都 文字 地 替换 为 相应 的 实在 参数 。 这 种 文字 替换 被 称 为 宏 扩展 或 内 谋 扩 展 。 

2. 被 调用 过 程 中 的 局 部 名 字 要 保持 与 调用 过 程 中 的 名 字 不 同 ， 因 此 可 以 考虑 在 进行 宏 扩 展 
以 前 ,将 被 调用 过 程 中 的 每 一 个 名 字 都 系统 地 给 以 重新 命名 。 

3. 如 果 需 要 保持 实 参 的 完整 性 ， 可 以 把 实 参 用 圆 括号 括 起 来 。 


例 7.8 例 7.7 中 的 调用 swap (i，a[i]) 将 被 实现 为 : 


temp := i 
i := ali] 
a[i] := temp 


这 样 ， 在 传 名 调用 下 ， 正 如 期 望 的 那样 ，swap 将 i 设置 成 a[i] ,但 这 也 导 臻 了 意 想不到 的 
结果 ， 那 就 是 a[a[m]] 而 不 是 alb] RRT b, HP ho 是 i 的 初 值 。 这 种 现象 发 生 的 原因 
是 在 赋值 x := temp 中 的 x 直到 需要 时 才 求 值 ， 但 这 时 i 的 值 已 经 改变 了 。 很 明显 ， 如 果 采 
用 传 名 调用 法 ， 就 不 可 能 给 出 一 个 swap 的 正确 版 本 ( 见 Fleck[1976] )。 口 
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序 运 行 时 间 。 创 建 过 程 的 活动 记录 需要 一 定 的 开销 一 一 要 给 活动 记录 分 配 空 间 、 要 保存 机 器 的 
状态 、 要 建立 连接 、 要 完成 控制 的 转移 。 当 过 程 主体 很 小 时 ， 调 用 序列 的 代码 会 超过 过 程 主体 
的 代码 。 因 此 在 调用 时 用 该 主体 的 内 冉 扩 展 来 替代 它 会 更 有 效 ， 尽 管 程序 会 变 大 一 点 。 在 下 面 
的 例子 中 ， 内 咏 扩 展 被 用 于 传 值 调 用 的 过 程 中 。 


例 7.9 假定 函数 f 在 赋值 语句 x := f(A) + E(B) 中 采用 传 值 调用 。 这 里 实 参 A 和 B 是 


表达 式 。 将 上 函数 体 中 的 形 参 的 每 次 出 现 替换 为 表达 式 4 和 B 会 导致 传 名 调用 ， 回 想 一 下 上 
一 个 例子 中 的 a [i]。 


引进 新 的 临时 变量 ， 在 过 程 体 被 执行 前 先 求 实 参 表达 式 的 值 并 存 和 该 变量 。 





ti := A; 
t: := B; 
ty := f(t); 
ty := f(t) 


这 样 ， 当 第 一 个 调用 和 第 二 个 调用 分 别 被 扩展 时 ， 内 艇 扩展 将 用 ti 和 t: 来 替代 形 参 的 每 一 次 
出 现 ” 。 口 

通常 传 名 调用 是 通过 给 被 调 过 程 传递 无 参 子 程序 实现 的 ， 这 个 子 程序 被 称 为 形 实 转 换 程序 
( thunk )， 它 能 求 出 实 参 的 左 值 或 右 值 。 像 使 用 词法 作用 域 的 语言 中 作为 参数 传递 的 过 程 一 样 ， 
一 个 形 实 转换 程序 带 一 个 访问 链 ， 它 指向 调用 过 程 的 当前 活动 记录 。 


7.6 符号 表 


编译 器 使 用 符号 表 来 记录 名 字 的 作用 域 以 及 绑 定 信息 。 每 当 在 源 文件 中 遇 到 一 个 名 字 时 ， 
就 要 搜索 符号 表 。 如 果 发 现 新 的 名 字 或 者 已 有 名 字 的 新 信息 ， 符 号 表 就 要 发 生变 化 。 

符号 表 机 制 必须 允许 我 们 能 够 添加 新 表 项 和 快速 查找 现 有 表 项 。 本 节 将 给 出 两 种 符号 表 机 
制 : 线性 表 和 散 列 表 。 我 们 是 基于 增加 n 个 表 项 和 查找 e 个 表 项 所 需 的 时 间 来 评价 每 种 机 制 的 。 
线性 表 实现 起 来 很 容易 ， 但 当 n 和 e 值 很 大 时 ， 它 的 性 能 较 差 ， 而 散 列 表 却 能 在 编程 工作 量 和 空 
间 开 销 较 大 情况 下 提供 更 好 的 性 能 。 这 两 种 机 制 均 适 于 处 理 最 近 檬 套 作 用 域 规则 。 

如 果 有 有 必要， 编译 时 能 动态 地 增加 符号 表 对 编译 器 来 说 是 很 有 用 的 。 如 果 编译 器 写 好 后 ， 
符号 表 的 大 小 就 固定 的 话 ， 那 么 符号 表 必须 设计 得 够 大 ， 以 便 能 处 理 可 能 遇 到 的 任何 源 程序 。 
这 种 固定 大 小 的 符号 表 对 大 部 分 程序 来 说 都 太 大 ， 但 对 有 些 程序 来 说 又 不 够 用 。 

7.6.1 符号 表 表 项 

符号 表 中 的 每 个 表 项 都 是 为 一 个 名 字 的 声明 建立 的 。 表 项 的 格式 不 必 一 致 ， 因 为 存储 的 有 
关 名 字 的 信息 与 该 名 字 的 用 法 有 关 。 每 个 表 项 可 以 作为 一 条 记录 来 实现 ， 该 记录 是 由 连续 的 存 
储 字 序 列 组 成 的 。 为 保持 符号 表 记 录 的 一 致 ， 可 以 把 一 个 名 字 的 某 些 信息 存放 在 符号 表 表 项 以 
外 ， 而 在 记录 中 存放 一 个 指向 这 些 信息 指针 。 

信息 会 在 不 同 的 时 间 放 入 符号 表 中 。 关 键 字 在 初始 时 全 部 放 入 表 中 。 在 3.4 节 中 讲 到 的 词 
法 分 析 器 通过 查找 表 中 的 字母 和 数字 序列 来 判定 某 个 保留 的 关键 字 或 名 字 是 否 已 经 被 收集 在 符 
号 表 中 了 。 使 用 这 种 方法 ， 必 须 在 词法 分 析 之 前 将 关键 字 放 人 符号 表 中 。 或 者 ， 如 果 词 法 分 析 


O 存在 与 临时 变量 有 关 的 隐 含 开销 。 它 们 可 能 引起 在 活动 记录 中 分 配额 外 的 空间 。 如 果 活 动 记录 中 的 局 部 变 
量 已 被 初始 化 ， 则 额外 的 临时 变量 还 将 导致 时 间 的 浪费 。 
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器 截获 了 这 些 关 键 字 ， 那 么 它们 就 不 用 出 现在 符号 表 中 了。 如果 这 种 语言 不 保留 关键 字 ， 那 么 
有 必要 在 将 关键 字 放 入 符号 表 时 ， 提 示 一 下 它们 可 能 被 用 作 关 键 字 。 

当 信息 可 用 时 随 着 属性 值 的 填 人 ， 一旦 知道 名 字 的 作用 就 可 以 建立 符号 表 表 项 本 身 。 某 些 
情况 下 ,只 要 在 输入 中 看 到 一 个 名 字 ， 即 可 从 词法 分 析 器 来 初始 化 该 表 项 。 更 多 的 时 候 ， 即 使 
在 同一 程序 块 或 者 过 程 中 ， 一 个 名 字 也 可 能 会 表示 几 种 不 同 的 对 象 。 例 如 ，C 语 言 声明 

int x; 

struct x { float y, z; }; (7-1) 
既 将 x 作为 一 个 整 型 变量 又 作为 一 个 有 两 个 域 的 结构 类 型 。 在 这 种 情况 下 ， 词 法 分 析 器 只 能 返 
问 名 字 本 身 ( 或 指向 这 个 名 字 串 的 指针 ) 给 语法 分 析 器 ， 而 不 会 返回 指向 符号 表 的 表 项 的 指针 。 
当 该 名 字 构 成 句子 的 作用 一 旦 被 发 现 ， 符 号 表 中 的 记录 就 会 被 创建 。 对 于 (7-1) 中 的 声明 ， 符 号 
表 中 产生 两 个 关于 x 的 表 项 ， 一 个 是 整 型 ， 一 个 是 结构 类 型 。 

对 应 于 相应 的 声明 ， 名 字 的 属性 被 输入 符号 表 ， 这 也 许 是 隐 式 的 。 标 号 通常 是 后 跟 冒 号 的 
标识 符 ， 这 样 ， 与 识别 这 种 标识 符 相 关 的 动作 将 是 把 这 些 情 况 输 入 到 符号 表 中 。 相 似 地 ， 过 程 
声明 中 的 语法 将 指出 这 些 标识 符 是 形 参 。- 

7.6.2 名 字 中 的 字符 

正如 在 第 3 章 中 讲 到 的 ， 标 识 符 或 名 字 的 记号 id、 构 成 名 字 的 字符 串 所 组 成 的 词素 与 名 字 
的 属性 三 者 是 有 区 别 的 。 字 符 串 是 不 实用 的 方法 ， 所 以 编译 器 通常 采用 名 字 的 定 长 表示 而 不 是 
词素 。 当 符号 表 的 表 项 第 一 次 建立 时 ， 以 及 查找 输入 的 一 个 词素 来 判断 该 名 字 是 否 已 经 出 现 过 
时 ， 需 要 用 到 词素 。 名 字 的 一 般 表示 是 一 个 指向 符号 表 中 相关 表 项 的 指针 。 

如 果 一 个 名 字 的 长 度 有 适中 的 上 限 ， 那 么 该 名 字 的 字符 就 可 以 存储 在 符号 表 的 表 项 中 ， 如 
图 7-32a 所 示 。 如 果 名 字 的 长 度 没有 限制 ,或 者 这 种 限制 很 难 做 到 ， 则 可 采用 如 图 7-32b 中 的 间 















b) 
图 7-32 名 字 字 符 的 存储 
a) 记录 中 的 定 长 空间 b) 存放 在 分 离 的 数组 中 
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接 方法 。 不 给 符号 表 的 表 项 分 配 最 大 可 能 的 空间 来 存储 词素 ， 而 是 只 给 它 分 配 一 个 可 以 存储 指 
针 的 空间 ， 这 样 我 们 就 能 更 有 效 地 利用 存储 空间 了 。 我 们 把 名 字 的 字符 存储 在 一 个 单独 的 数组 
(字符 串 表 ) 中 ， 这 样 在 符号 表 中 名 字 的 记录 中 ， 我 们 只 存储 了 一 个 指针 ， 该 指针 指向 这 个 名 
字 的 第 一 个 字符 。 图 7-32b 中 的 这 种 存储 方法 就 允许 符号 表 中 名 字 域 的 长 度 为 定 值 了 。 

构成 名 字 的 整个 词素 都 必须 被 保存 ， 这 样 才能 保证 该 名 字 的 所 有 使 用 都 与 符号 表 中 的 同一 
个 记录 相关 联 。 不 过 ， 我 们 必须 区 分 在 不 同 声明 的 作用 域 中 的 相同 词素 的 不 同 出 现 。 

7.6.3 存储 分 配 信息 

在 运行 时 与 名 字 绑 定 的 存储 单元 信息 保存 在 符号 表 中 。 先 考虑 静态 分 配 情况 。 如 果 目 标 代 
码 是 汇编 语言 ， 我 们 让 汇编 程序 去 处 理 不 同名 字 的 存储 分 配 问 题 。 我 们 所 要 做 的 是 在 程序 的 汇 
编 代 码 产 生 后 扫描 符号 表 ， 并 为 每 个 名 字 生 成 汇编 语言 的 数据 定义 ， 该 定义 需 添 加 到 汇编 语言 
程序 中 。 

如 果 由 编译 器 产生 的 是 机 器 代码 ， 那 么 每 个 数据 对 象 的 位 置 就 与 固定 的 起 始点 相关 ， 例 如 
必须 确定 活动 记录 的 起 始点 。 相 同 的 说 明 也 用 在 数据 模块 上 ， 这 些 模块 是 与 程序 相 独 立 的 。 倒 
如 ，Fortran 语 言 中 的 COMMON 块 是 独立 装载 的 ， 所 以 应 该 知道 名 字 相 对 于 所 在 的 COMMON 块 的 
起 始点 的 位 置 。7.3 节 中 的 方法 对 Fortran 来 说 应 该 有 所 修改 ， 原 因 将 在 7.9 节 中 说 明 ， 在 那里 当 
过 程 的 所 有 声明 已 经 处 理 后 必须 为 名 字 分 配 偏 移 量 并 且 需 要 处 理 EQUIVALENCE 声 明 。 

如 果 名 字 的 存储 区 域 在 栈 或 者 堆 中 ， 编 译 器 就 不 会 分 配 存储 空间 ， 编 译 器 会 策划 每 个 过 程 
的 活动 记录 ， 如 7.3 节 讨论 的 那样 。 

7.6.4 符号 表 的 线性 表 数据 结构 

符号 表 最 简单 、 最 容易 实现 的 数据 结构 是 记录 的 线 
性 表 ， 如 图 7-33 所 示 。 我 们 用 一 个 或 几 个 等 价 的 数组 来 
存储 名 字 和 它们 的 相关 信息 。 新 名 字 将 按 遇 到 的 顺序 加 
和 人 数组。 数组 的 最 后 一 个 位 置 由 available 指针 标识 ， 它 
指向 下 一 个 符号 表 表 项 的 位 置 。 名 字 的 查找 从 数组 的 尾 
端 向 起 始 端 进行 。 一 旦 名 字 被 查 到 ， 它 的 相关 信息 就 能 
在 紧 接着 的 位 置 查 到 。 如 果 从 头 到 昆 都 没有 找到 这 个 名 
字 ， 就 会 出 错 一 一 期 望 的 名 字 不 在 表 中 。 

注意 ， 为 名 字 建 立 表 项 和 在 符号 表 中 查找 名 字 是 独 
立 的 操作 一 一 我 们 希望 能 够 独立 地 执行 每 个 操作 。 在 块 。 available 
结构 语言 中 ， 名 字 的 出 现 属于 该 名 字 的 最 近 嵌 套 声明 的 图 7.33 记录 的 线性 表 
作用 域 。 我 们 可 以 使 用 线性 表 数 据 结 构 来 实现 该 作用 域 
规则 ， 方 法 是 每 次 声明 一 个 名 字 就 为 它 建 立 一 个 新 表 项 。 新 表 项 放 在 紧 接着 available 指针 的 
地 方 ; 该 指针 也 就 会 按照 符号 表 记 录 的 大 小 向 下 增长 。 既然 表 项 是 从 数组 的 起 始 处 按 序 插入 的 ， 
那么 它们 出 现 的 顺序 就 和 产生 的 顺序 一 样 了 。 通 过 从 available 到 数组 的 起 始 处 进行 查找 ， 我 
们 一 定 可 以 找到 最 近 产 生 的 表 项 。 

如 果 符 号 表 中 包含 ma 个 名 字 ， 而 且 搬 和 人 一 个 新 名 字 前 不 必 查 找 它 是 否 已 存在 ， 那 么 播 和 一 
个 名 字 所 花费 的 时 间 是 个 常数 。 如 果 不 允 许多 个 表 项 对 应 一 个 名 字 ， 则 需 查找 整个 符号 表 以 确 
认 名 字 是 否 已 经 在 表 中 ， 它 花费 的 时 间 与 n 成 正比 。 找 到 这 个 名 字 平 均 需 要 查找 n/2 个 名 字 ， 
那么 查找 时 间 仍 与 n REH. MAARIBA n 成 正比 ， 那 么 插入 n 个 名 字 和 查找 e 
个 名 字 的 总 时 间 最 多 是 cn (nte), ZE c 是 一 个 常数 ， 它 代表 几 个 机 器 操作 的 时 间 。 在 一 个 
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中 等 大 小 的 程序 中 ， 我 们 设 n= 100 而 e = 1000， 这 样 所 有 的 操作 需要 上 百 万 个 机 器 操作 时 间 。 
这 是 可 以 忍受 的 ， 因 为 整个 处 理 时 间 不 到 一 秒 。 但 是 ， 当 n 和 e 都 扩大 十 倍 时 ， 处 理 时 间 将 扩 
大 100 倍 ， 这 样 的 处 理 时 间 就 不 能 忍受 了 。 这 同时 也 告诉 我 们 编译 器 在 哪里 花费 了 时 间 ， 以 及 
判定 是 否 在 线性 表 的 查找 上 花费 了 太 多 的 时 间 。 
7.6.5 散 列表 

各 种 各 样 的 散 列 技术 已 经 在 许多 编译 器 上 实现 。 这 里 我 们 考虑 一 种 比较 简单 的 称 为 外 散 列 
表 的 散 列 技术 ， 外 散 列 表 对 表 中 表 项 的 数量 没有 限制 。 这 种 表 在 n 个 名 字 中 做 e 条 查找 时 ， 查 
找 时 间 与 n(n+e ) /m 成 正比 ， 其 中 m 为 任意 常数 。 既 然 m 可 以 任意 取 值 ， 就 可 以 把 它 取得 很 
K, EA n。 这 种 方法 一 般 要 比 线 性 表 的 效率 高 ， 所 以 它 是 经 常 采用 的 方法 。 但 是 ， 这 种 方法 
花费 的 空间 随 m 的 增 大 而 增 大 ， 所 以 时 间 和 空间 的 权衡 是 不 可 避免 的 。 

基本 的 散 列表 如 图 7-34 所 示 。 它 的 数据 结构 包括 两 部 分 : 

1. 由 一 个 固定 的 数组 组 成 的 散 列 表 ， 数 组 的 m 个 元 素 是 m 个 指向 表 项 的 指针 。 

2. 表 项 被 组 织 到 m 个 独立 的 链表 中 ， 这 些 链 表 称 为 桶 (有些 桶 可 能 是 空 的 )。 符 号 表 中 的 
每 条 记录 刚好 出 现在 某 一 个 链表 中 。 记录 的 存储 可 能 来 源 于 记录 数组 , 下 一 节 将 会 讨论 此 内 容 。 
另外 ,动态 分 配 策略 在 获得 空间 的 同时 会 损失 效率 。 


链表 头 数组 ， 
通过 散 列 值 索 引 





图 7-34 一 个 大 小 为 211 的 散 列表 


为 了 判断 字符 串 s 的 表 项 是 否 在 符号 表 中 ， 我 们 对 s RARI BA h, h(s) 返回 0 到 m- 
1 之 间 的 一 个 整数 。 如 果 * 在 符号 表 中 ， 那 么 它 位 于 链表 的 hl) 位 置 上 。 如 果 s 不 在 符号 表 中 ， 
那么 为 它 创 建 一 条 记录 ， 并 把 它 插 到 hh (s ) 对 应 的 链表 前 。 

根据 经 验 可 知 ， 如 果 大 小 为 m 的 散 列表 保存 了 n 个 名 字 ， 那 么 平均 每 个 链表 有 nm Tid 
录 。 通 过 选择 m 的 值 ，n/m 会 达到 一 个 小 的 常数 ， 比 如 2， 那 么 查找 表 中 表 项 的 时 间 也 就 成 为 
一 个 常数 了 。 

符号 表 所 占 的 空间 包括 散 列 表 的 m 个 字 和 n 个 表 项 的 cn 个 字 ， 其 中 c 为 每 个 表 项 占用 的 
字数 。 这 样 散 列表 的 空间 只 依赖 于 m， 表 项 占用 的 空间 只 依赖 于 表 项 的 个 数 。 

m 的 选择 依赖 于 对 符号 表 的 应 用 。 如 果 把 m 选 为 几 百 ， 那 么 即使 对 于 中 等 大 小 的 程序 来 
说 , 查 表 所 用 的 时 间 相 对 于 编译 程序 的 总 开销 而 言 也 是 可 以 忽略 的 。 但 是 当 程序 的 规模 很 大 时 ， 


282 £7¢ 





m 的 值 定 的 大 点 比较 好 。 

人 们 把 很 大 的 注意 力 放 在 散 列 函数 的 设计 上 ， 使 得 该 函数 可 以 很 容易 地 计算 出 字符 串 的 散 
列 值 并 把 所 有 的 字符 串 均 匀 地 分 配 到 m 个 链表 中 去 。 

下 面 是 一 个 适合 计算 散 列 函数 方法 : 

1. 从 字符 串 s 的 字符 ci, cr, ot, ci 中 确定 正 整 数 h。 一 般 的 语言 都 支持 把 字符 转换 为 整数 。 
Pascal 语 言 中 就 有 这 样 的 函数 ord; 如 果 对 字符 进行 数学 运算 ，C 语 言 能 自动 把 它 转化 为 整 型 。 

2. 把 上 面 确 定 的 h 转化 为 链表 的 编号 ， 即 0 到 m-1 之 间 的 一 个 整数 。 最 简单 的 方法 是 用 有 
BRU m， 把 余数 作为 链表 的 编号 。 采 用 余数 法 在 m 是 素数 时 效果 更 好 ， 这 就 是 图 7-34 中 取 211 
而 不 是 200 的 原因 。 

散 列 函数 察看 字符 串 的 所 有 字符 肯定 比 只 察看 字符 串 的 头 几 个 或 中 间 几 个 字符 麻烦 。 要 记 住 ， 
字符 串 在 输入 编译 器 之 前 已 经 被 程序 使 用 了 ， 所 以 程序 已 做 了 避免 它们 发 生 冲突 的 工作 ， 比 如 具 
有 一 定 风格 的 格式 。 人 们 常用 “一 往 ” 
名 字 ， 比 如 baz、newbaz、baz1 等 。 


(I) #define PRIME 211 
(2) #define EOS ’\0’ 





一 个 简单 的 计算 h 值 的 方法 是 将 字 (3) int hashpjw(s) 
符 串 中 所 有 字符 对 应 的 整数 值 加 在 一 oe 
起 。 更 好 的 方法 是 在 加 入 下 一 个 字符 的 (6) char +p; 
值 以 前 将 老 的 ， 值 乘 以 一 个 常数 a， 即 (0 gned hg 
令 h 加 =0, hiz hat ci 1Si<k, HS (9) nm es 
h=h, KP k 是 字符 串 的 长 度 ( 记 住 (10) if (g = h&0xf0000000) { 
散 列 值 是 用 h mod m )。 简 单 地 将 每 个 | (i> nine gw 
字符 对 应 的 整数 值 相 加 就 是 & 等 于 1 的 (13) } 
情况 。 相 似 的 策略 是 用 oh 与 “进行 | CD pew 
异 或 运算 ， 而 不 是 加 。 09 ) i 

对 于 32 位 的 整数 来 说 ， 如 果 我 们 取 -一 


在 计算 oh 时 很 快 就 会 发 生 溢出 。 既 然 a 是 素数 ， 我 们 可 以 忽略 溢出 而 只 取 它 的 低 32 位 。 

一 组 试验 是 采用 图 7-3$ 中 所 示 的 散 列 函数 hashpjw， 该 散 列 函数 来 源 于 PJ.Weinberger 的 C 
语言 编译 器 中 。 对 各 种 大 小 的 表 ， 试 验 结果 都 很 好 (如 图 7-36 所 示 )。 表 的 大 小 包括 大 于 100， 
200，…，1500 的 第 一 个 素数 。 类 似 的 另 一 组 试验 是 将 旧 的 严 值 乘 以 6$55$99， 忽 略 溢出 ， 再 与 下 
一 字符 相 加 得 到 新 的 h 值 。 函 数 hashpjw 中 的 初 值 是 0。 对 每 个 字符 c， 将 h 左 移 四 位 ， 并 加 
上 c， 得 到 新 的 ho MR h 的 高 4 位 上 有 一 位 是 1， 就 把 这 4 位 右 移 24 位 ， 再 与 h 进行 异 或 运算 ， 
最 后 把 疡 的 高 4 位 中 曾经 是 1 的 位 再 置 成 0。 


例 7.10 ”为 了 得 到 最 好 的 结果 ， 当 散 列 函数 设计 完 以 后 ， 散 列表 的 长 度 和 经 常 出 现 的 输入 就 
成 了 我 们 关心 的 问题 了 。 例 如 ， 我 们 希望 最 常 出 现 的 名 字 的 散 列 值 是 惟一 的 。 如 果 把 关键 字 也 输 
入 符号 表 中 ， 那 么 关键 字 是 最 常 出 现 的 ， 尽 管 在 某 些 C 语 言 程序 中 i 的 使 用 次 数 是 while 的 三 信 。 

一 种 测试 散 列 函数 的 方法 是 看 有 和 多少 个 字符 串 落 在 同一 个 链表 中 。 假 设 文件 F 是 由 n 个 字符 
串 组 成 的 ， 再 假设 有 bb 个 字符 串 落 入 了 链表 j 中 ，0<j<m-1。 字 符 串 在 链表 中 分 布 是 否 均匀 
的 度量 方法 是 计算 


m-i 
Fob +)/2 (7-2) 
j=0 


BATH RH | 283 


这 个 式 子 给 我 们 的 直观 感觉 是 : 针对 要 查找 的 一 个 字符 串 ， 在 链表 j 中 要 比较 第 一 项 看 是 否 
相等 ， 不 相等 则 比较 第 二 项 ， 如 此 进行 下 去 直到 第 bj 项 。 平 均 比较 次 数 用 1, 2, …, b; 的 和 是 
b;(b;+1) 126 
在 练习 7.14 中 ， 将 字符 串 随 机 分 布 在 各 个 散 列 桶 中 的 散 列 函数 (7-2) 的 值 是 435 
(n/2m\(n + 2m - 1) (7-3) [436 


图 7-36 中 给 出 在 9 个 文件 上 应 用 几 种 散 列 函数 时 ， 式 (7-2) 和 (7-3) 的 比率 。 这 9 个 文件 分 别 是 : 
1. C 语 言 的 程序 中 ，50 个 出 现 最 频繁 的 名 字 和 关键 字 。 

2. Al, 但 是 考虑 100 个 出 现 最 频繁 的 名 字 和 关键 字 。 

3. ll, 但 是 考虑 500 个 出 现 最 频繁 的 名 字 和 关键 字 。 

4. 952 个 UNIX 操 作 系 统 内 核 中 使 用 的 外 部 名 字 。 

5. 627 个 C++ ( Stroustrup[1986] ) 生成 的 C 程 序 中 的 名 字 。 

6. 915 个 随机 产生 的 字符 串 。 

7. 614 个 取 自 本 书 3.1 节 的 字 。 

8. 1201 个 英语 单词 ， 并 将 xxx 作 为 其 前 缀 或 后 缀 。 

9. 从 v100 到 v399 的 300 个 名 字 。 





hashpjw X65599 quad X16 x5 x2 midde XI ends 
散 列 方法 
绘 出 了 文件 编号 


图 7-36 散 列 函数 在 大 小 为 211 的 表 上 的 相对 性 能 


函数 hashpjw :如 图 7-35 所 示 。 函 数 x oa 计算 h mod m, EF a 是 一 个 整 常数 ，h 是 递归 得 
到 的 ， 其 初 值 为 0， 每 次 在 旧 值 上 乘 以 x 再 加 入 下 一 个 字符 的 值得 到 新 值 。 函 数 middle 的 h 值 
取 自 字符 串 的 中 间 四 个 字符 ， 而 函数 ends 的 h 值 是 将 字符 捉 的 前 三 个 和 后 三 个 字符 相 加 得 到 
的 。 最 后 ， 函 数 quad 把 每 四 个 连续 的 字符 聚合 成 一 个 整数 ， 青 累加 这 些 整数 。 口 


7.6.6 表示 作用 域 的 信息 


符号 表 中 的 表 项 对 应 于 名 字 的 声明 。 当 在 符号 表 中 查找 源 文件 中 出 现 的 一 个 名 字 时 ， 声 明 
这 个 名 字 的 符号 表 表 项 必须 被 返回 。 源 语言 的 作用 域 规则 确定 了 哪个 声明 是 正确 的 。 


A 
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一 种 简单 的 方法 就 是 为 每 个 作用 域 建立 一 个 独立 的 符号 表 。 实 际 上 ， 这 种 为 每 个 过 程 或 作 
用 域 建立 的 符号 表 与 编译 时 的 活动 记录 是 等 价 的 。 一 个 过 程 的 非 局 部 名 字 的 信息 可 以 通过 扫描 
外 围 过 程 的 符号 表 而 得 到 ， 这 里 的 外 围 过 程 是 指 遵循 语言 作用 域 规则 的 那些 外 围 过 程 。 同 样 ， 
我 们 可 以 把 过 程 的 局 部 信息 放 在 程序 语法 树 中 相应 过 程 的 节点 上 。 通 过 这 种 方法 ， 符 号 表 就 被 
集成 到 输入 程序 的 中 间 表 示 中 了 。 

最 近 典 套 作用 域 规则 可 以 通过 改写 本 节 前 面 所 提 到 的 数据 结构 来 实现 。 我 们 通过 为 每 个 过 
程 赋予 一 个 惟一 的 编号 来 跟踪 过 程 中 局 部 变量 的 名 字 。 如 果 语言 是 块 结构 的 ， 程 序 块 也 必须 编 
号 。 过 程 编号 在 语法 制导 方式 下 可 以 从 标识 过 程 开始 与 结束 的 语义 规则 中 计算 出 来 。 过 程 编号 
是 过 程 中 声明 的 局 部 变量 的 一 部 分 ; 这 样 局 部 变量 在 符号 表 中 的 表示 由 两 部 分 组 成 ， 即 名 字 和 
过 程 编号 。( 在 某 些 安排 中 ， 正 如 下 面 将 要 描述 的 ,过程 的 编号 并 不 实际 出 现 ， 因 为 可 以 从 它 
在 符号 表 中 的 位 置 推 导出 来 。) 

当 我 们 查找 一 个 新 的 被 扫描 到 的 名 字 时 ， 只 有 当 名 字 的 每 一 个 字符 都 与 表 项 中 的 名 字 的 字 
符 相 匹配 ， 而 且 相应 的 编号 与 正在 处 理 的 过 程 的 编号 相同 ， 这 样 才 算 匹 配 。 最 近 舱 套 作用 域 规 
则 可 以 通过 以 下 对 名 字 的 操作 来 实现 : 

lookup: 查找 最 近 建 立 的 表 项 

insert: 建 一 个 新 表 项 

delete: 删除 最 近 建立 的 表 项 
这 里 删除 的 表 项 必须 被 保留 ; 它们 只 是 从 活动 符号 表 中 删 掉 了 。 在 单 遍 编译 器 中 ， 当 过 程 体 处 
理 完 以 后 ， 符 号 表 中 有 关 它 的 作用 域 信息 在 编译 时 就 不 需要 了 。 但 在 运行 时 可 能 是 需要 的 ， 尤 
其 是 当 实 现 运 行 时 诊断 系统 时 。 这 种 情况 下 ， 符 号 表 中 的 这 些 信 息 必须 加 到 为 链接 程序 或 运行 
时 诊断 系统 产生 的 代码 中 。 可 以 参照 8.2 节 和 8.3 节 中 对 记录 中 域名 的 处 理 。 

为 支持 上 面 的 操作 ， 必 须 维护 本 节 讨 论 的 各 种 数据 结构 ， 如 线性 表 和 散 列 表 。 

我 们 在 本 节 前 面 描述 记录 数组 构成 的 线性 表 时 ， 曾 提 到 如 何 实现 ookup。 如 果 从 尾 端 插入 
新 表 项 ， 那 么 表 项 在 线性 表 中 的 顺序 就 和 插入 表 项 的 顺序 相同 了 。 从 尾 到 头 进行 扫描 即 可 发 现 
最 近 建 立 的 名 字 的 表 项 。 链 表 的 情况 与 此 类 似 ， 如 图 7-37 所 示 。 指 针 front 指 向 链表 中 最 近 建立 
的 那个 表 项 。 实 现 insert 操 作 花 费 常数 时 间 ， 因 为 新 表 项 放 在 表 的 前 面 。 通 过 从 front 指 针 处 开 
始 扫描 ， 直 到 目标 找到 或 者 到 达 了 线性 表 的 最 尾 端 来 完成 ljookwp 的 实现 。 在 图 7-37 中 ， 块 8 内 
套 在 块 Bo 中 ， 所 以 B, 中 声明 的 a 的 表 项 比 Bo 中 声明 的 a 的 表 项 更 靠近 线性 表 的 前 端 。 


front 


图 7-37 a 的 最 近 出 现 的 表 项 更 靠近 指针 front 


对 于 delete 操 作 ， 注 意 到 在 启 套 最 深 的 过 程 中 声明 的 表 项 离 表 的 前 面 最 近 ， 所 以 不 必 在 每 
一 个 表 项 中 保存 过 程 编号 一 一 如 果 跟 踪 每 个 过 程 的 第 一 个 表 项 ， 那 么 ， 在 处 理 完 一 个 过 程 的 作 
用 域 以 后 ， 一 直到 第 一 个 表 项 的 所 有 表 项 就 都 可 以 从 活动 符号 表 中 删除 了 。 

散 列表 由 m 条 链 组 成 ， 这 m 条 和 链 通 过 数组 访问 。 既 然 一 个 名 字 总 是 散 列 到 同一 个 链 中 ， 就 
可 以 像 图 7-37 那 样 维护 单独 的 链表 。 但 是 执行 删除 操作 时 ， 我 们 希望 不 要 查找 整个 散 列 表 。 可 
以 使 用 下 面 的 方法 ,假设 每 个 表 项 有 两 条 链 : 

1. 一 条 散 列 链 ， 它 将 所 有 散 列 值 相同 的 表 项 链 在 一 起 。 
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2. 一 条 作用 域 链 ， 它 将 同一 作用 域 中 的 所 有 表 项 链 在 一 起 。 

如 果 从 散 列 表 中 删除 表 项 时 对 作用 域 链 不 做 处 理 ， 那 么 这 个 作用 域 链 将 构成 一 个 单独 的 
( 没有 激活 的 ) 符号 表 。 

从 散 列 表 中 删除 表 项 必须 非常 谨慎 ， 因 为 删除 一 个 表 项 对 散 列 表 中 前 面 的 表 项 会 产生 影 
响 。 回 想 一 下 我 们 通过 将 第 i-1 个 表 项 指向 第 i+1 个 表 项 ,来 删除 第 i 个 表 项 的 情况 。 因 此 仅 
仅 通过 作用 域 链 来 寻找 第 i 个 表 项 是 不 够 的 。 在 循环 链表 中 ， 第 于 1 个 元 素 可 以 被 找到 ， 因 为 
最 后 一 个 元 素 的 指针 指向 第 一 个 元 素 。 另 外 ， 我 们 可 以 使 用 栈 来 跟踪 含有 要 被 删除 的 表 项 的 
列表 。 当 一 个 新 过 程 被 扫描 时 ， 在 栈 内 放置 一 个 标记 。 标 记 上 面 是 包含 该 过 程 中 声明 的 名 字 
表 项 的 列表 编号 ， 当 这 个 过 程 执 行 完毕 时 ， 标 记 上 面 的 列表 编号 都 从 栈 中 弹出 。 练 习 7.11 中 将 
讨论 另 一 种 机 制 。 


7.7 支持 动态 存储 分 配 的 语言 措施 


在 本 节 中 ， 我 们 将 简要 找 述 一 下 某 些 语言 提供 的 支持 动态 存储 分 配 的 措施 。 这 种 数据 的 存 
储 一 般 采 用 堆 的 方式 。 分 配 的 数据 一 般 需 要 显 式 释 放 ， 而 分 配 操作 本 身 可 以 是 显 式 的 或 者 隐 趟 
的 。 例 如 ， 在 Pascal 中 ， 显 式 分 配 采 用 标准 过 程 new，new (p) 操作 将 内 存 分 配给 指向 对 象 的 指 
针 p。 在 大 多 数 的 Pascal 实 现 中 释放 内 存 使 用 ai spose 操 作 。 

隐 式 内 存 分 配 一 般 发 生 在 表达 式 的 执行 结果 需要 存储 单元 来 存放 的 时 候 。 比 如 Lisp 中 ， 当 
使 用 cons 的 时 候 ， 一 个 新 单元 就 被 插入 到 列表 中 去 ， 不 再 被 使 用 的 单元 会 被 自动 回收 。 
Snobol 允 许 在 运行 时 改变 字符 串 的 长 度 ， 并 使 用 堆 来 管理 字符 囊 所 使 用 的 存储 空间 。 

例 7.11 图 7-38 所 示 的 Pascal 程 序 将 产生 图 7-39 所 示 的 链表 ， 并 显示 单元 里 的 整数 ， 其 输 
出 如 下 : 


76 3 
4 2 
7 1 


当 程序 从 第 (15) 行 开始 执行 的 时 候 ， 为 指针 heaq 分 配 的 存储 单元 在 整个 程序 的 活动 记录 中 。 每 
次 执行 到 下 列 语句 时 : 

(11) new(p); pt.key := k; pf.info := i; 
调用 new (p) 导致 在 堆 里 分 配 一 个 单元 ， 在 第 (11) 行 的 赋值 中 p+ 指向 这 个 单元 。 

需要 注意 的 是 ， 从 程序 的 输出 来 看 ， 当 控制 从 insert 返 回 主 程序 后 ， 分 配 的 单元 仍 可 以 
被 访问 。 换 句 话说 ， 当 控制 从 insert 返 回 主 程序 后 ， 在 insert 的 活动 记录 中 仍然 保留 用 nev 
分 配 的 存储 单元 。 口 
7.7.1 垃圾 单元 

动态 分 配 的 存储 单元 可 能 变 得 不 可 访问 。 这 种 在 程序 中 分 配 了 但 是 不 能 被 引用 的 存储 单元 
称 为 垃圾 单元 。 在 图 7-38 中 ， 假 设 在 第 (16) 和 (17) 行 之 间 将 nil 被 赋值 给 headt .next: 


(16) insert(7,1); insert(4,2); insert(76,3); 
headt.next := nil; 
(17) writeln(headt.key, headt.info); 


图 7-39 中 最 左边 的 单元 将 包含 一 个 nil 指针 而 不 是 指向 中 间 单 元 的 指针 。 当 指向 中 间 单 元 的 
指针 丢失 后 ， 中 间 以 及 最 右边 的 存储 单元 将 变 为 垃圾 单元 。 
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Lisp 语 言 具有 收集 垃圾 操作 ， 该 过 程 将 在 下 一 节 中 讨论 。Pascal 和 C 语 言 中 没有 垃圾 收集 操 
作 ， 而 是 在 程序 中 显 式 地 释放 不 需要 的 存储 单元 。 在 这 些 语 言 中 ， 释 放 的 存储 单元 可 以 被 重新 
使 用 ， 但 垃圾 单元 在 程序 结束 之 前 不 能 被 使 用 。 


program table(input, output); 
type link = f cell; 
cell = record 
key, info : integer; 
next : link 
end; 
var head : link; ` 
procedure insert(k, i : integer); 
var p : link; 
begin 
new(p); pt.key := k; pt.info := i; 


pt.next := head; head := p 
end; 


begin 
head := nil; 
insert(7,1); insert(4,2); insert(76,3); 
writeln(headt.key, headt.info); 
writeln(headt.nextt.key, headt.nextt.info); 
writeln(headt.nextt.nextt. key, 
headt.nextt.nextt.info) 





图 7-38 Pascal 中 用 new 进行 的 动态 存储 分 配 


head 


7s] 3} +44] 2] 4 
图 7-39 图 7-38 中 程序 建立 的 链表 
772 悬空 引用 
只 要 存储 空间 可 以 显 式 释放 ， 乃 空 引 用 问题 就 会 出 现 。 如 7.3 节 提 到 的 ， 引 用 某 个 已 释放 
的 存储 单元 就 会 引起 悬空 引用 。 例 如 ， 考 虑 在 图 7-38 中 第 (16) 与 (17) 行 之 间 执 行 语句 dispose 
(headt .next) 的 效果 : 


(16) insert(7,1); insert(4,2); insert(76,3); 
dispose (headt.next); 
(17) writeln(headt. key, headt.info); 


对 dispose 的 调用 释放 了 图 7-40 中 head 所 指向 的 单元 ,但 是 head1 .next 没 有 改变 ， 所 以 变 
成 了 一 个 悬空 的 指针 指向 了 一 个 已 释放 的 单元 。 


head 
9 PELTA fe | 7D F 
head 


[ rr a 
vo EEE 
| - -= J 


图 7-40 BSS (ASH aoe 
a) 操作 前 b) 操作 后 
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悬空 引用 和 垃圾 单元 是 两 个 相互 关联 的 概念 : 若 空间 释放 发 生 在 最 后 一 个 引用 之 前 就 会 
出 现 悬 室 引 用 ， 然 而 ， 若 最 后 一 次 引用 发 生 在 空间 释放 之 前 就 会 存在 垃圾 单元 。 


7.8 动态 存储 分 配 技术 


实现 的 动态 存储 分 配 技术 依赖 于 存储 的 释放 方式 。 如 果 存 储 是 隐 式 释放 的 ， 则 由 运行 时 支 
持 程 序 包 负责 确定 存储 块 何 时 不 再 需要 。 如 果 由 程序 员 显 式 释 放 内 存 ， 编 译 器 就 不 需要 做 什么 
工作 了 。 我 们 首先 考虑 显 式 释放 的 情况 。 
7.8.1 固定 块 的 显 式 分 配 

动态 存储 分 配 的 最 简单 形式 是 使 用 固定 大 小 的 块 。 如 图 7-41 所 示 ， 通 过 将 这 些 块 连接 成 一 
个 列表 ， 存 储 分 配 与 释放 可 以 很 快 地 执行 ， 而 且 几 乎 不 需要 额外 的 存储 空间 。 


available 





图 7-41 一 个 释放 的 块 被 加 到 可 用 块 列表 中 


假设 存储 块 可 以 从 一 个 连续 的 存储 区 域 得 到 。 该 存储 区 域 的 初始 化 是 使 用 每 个 存储 块 的 一 
部 分 存放 指向 下 一 块 的 指针 来 实现 的 ， 指 针 available 指向 第 一 个 存储 块 。 存 储 分 配 指 的 是 从 
列表 中 取 下 一 个 存储 块 ， 而 存储 释放 就 是 将 存储 块 放 回 列表 。 

管理 存储 块 的 编译 程序 不 需要 知道 存储 在 各 个 存储 块 中 的 对 象 的 类 型 。 我 们 可 以 将 各 个 存 
储 块 当 作 一 个 可 变 记 录 ， 编 译 程序 将 其 看 作 一 个 存储 决 的 链表 ， 而 用 户 程序 将 其 看 作 是 其 他 的 
数据 类 型 。 这 样 ， 由 于 用 户 可 以 使 用 整个 块 , 所 以 不 需要 额外 的 存储 空间 。 当 存储 块 被 返回 时 ， 
编译 程序 可 以 使 用 存储 块 本 身 的 一 部 分 空间 将 其 连接 到 可 用 块 列表 中 去 ， 如 图 7-41 所 示 。 
7.8.2 变 长 块 的 显 式 分 配 


当 存 储 块 被 分 配 和 释放 后 ， 存 储 中 会 出 现 碎 和 片 ; 也 就 是 说 堆 中 交替 存在 空闲 块 和 已 用 块 ， 
如 图 7-42 所 示 。 





图 7-42 堆 中 的 空闲 块 和 已 用 块 


当 程序 分 配 了 5 个 块 后 ， 继 而 又 释放 了 第 2 个 和 第 4 个 存储 块 ， 便 会 出 现 图 7-42 所 示 的 情况 。 
如 果 分 配 的 存储 块 均 是 固定 大 小 的 话 , 则 不 存在 碎片 问题 。 但 是 如 果 分 配 的 是 变 长 存储 块 的 话 ， 
就 会 出 现 图 7-42 所 示 的 碎片 问题 。 即 使 存在 足够 的 可 用 空间 ， 也 无 法 为 一 个 大 于 任何 空闲 块 的 
存储 块 分 配 空间 。 

有 一 种 分 配 变 长 存储 块 的 方法 称 作 最 先 符合 法 。 需 要 分 配 大 小 为 ;的 存储 块 时 ， 查 找 第 一 
个 其 长 度 f 满 足 f Ss 的 空闲 块 ， 然 后 将 该 块 分 为 大 小 为 s 的 已 用 块 和 大 小 为 广 * 的 空闲 块 。 注 
意 存 储 分 配 将 引入 时 间 开 销 ， 因 为 我 们 必须 查找 足够 大 的 空闲 块 。 

当 一 个 块 被 释放 后 ， 我 们 检查 它 是 否 与 某 个 空闲 块 相 邻 。 如 果 可 能 ， 则 与 之 合并 成 为 一 个 
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更 大 的 空闲 块 。 将 相 邻 空闲 块 合并 为 更 大 的 空闲 块 可 以 防止 出 现 更 多 的 内 存 碎片 。 至 于 如 何在 
可 用 块 列表 中 分 配 、 释 放 和 维护 空闲 块 还 有 很 多 具体 的 细节 ， 在 时 间 、 空 间 以 及 大 存储 块 的 可 
用 性 等 方面 也 要 进行 折衷 考虑 。 读 者 可 以 参考 Knuth[1973a] 或 者 Aho，Hopcroft, and Uliman 
[1983] 中 对 该 问题 的 讨论 。 

7.8.3 隐 式 存储 释放 

隐 式 存储 释放 需要 用 户 程序 与 运行 包 的 协调 ， 因 为 后 者 需要 知道 存储 块 何 时 不 再 被 用 户 程 
序 所 使 用 。 这 种 协调 通过 固定 存储 块 格式 来 实 
现 。 我 们 目前 的 讨论 假设 存储 块 的 格式 如 图 
7-43 所 示 。 

首先 是 块 边界 的 识别 问题 。 如 果 一 个 块 的 大 
小 是 国定 的 ， 则 可 以 使 用 位 置信 息 。 例 如 ， 如 果 
每 个 块 占用 20 个 字 , 则 每 20 个 字 开始 一 个 新 块 儿 。 
和 否则， 我 们 需要 在 一 个 不 能 被 访问 到 的 存储 区 域 
内 保存 块 的 大 小 信息 ， 以 便 确 定 块 的 开始 地 址 。 

第 二 个 问题 是 识别 块 是 否 被 占用 。 我 们 假设 图 7-43 块 的 格式 
如 果 用 户 程序 可 能 引用 块 内 的 信息 ， 则 该 块 是 被 占用 的 。 这 种 引用 可 能 通过 一 个 指针 或 一 系列 指 
针 指 向 该 块 ， 因 此 ， 编 译 程序 需要 知道 存储 区 中 所 有 指针 的 位 置 。 使 用 图 7-43 的 存储 块 格式 ， 指 
针 保 存在 块 中 的 一 个 固定 位 置 。 另 外 ， 我 们 还 可 以 假设 存储 块 的 用 户 信息 区 域 不 包含 任何 指针 。 

有 两 种 方法 可 以 用 来 进行 隐 式 存储 释放 。 下 文 将 简要 介绍 一 下 ， 更 多 细节 请 参见 Aho, 
Hopcroft, and Ullman [1983], 

1. 引用 计数 。 我 们 跟踪 直接 指向 当前 块 的 存储 块 的 数目 。 如 果 该 计数 值 降 为 0， 则 释放 该 块 ， 
因为 它 已 不 再 被 引用 了 。 换 句 话说 ,该 块 变 成 了 可 被 回收 的 垃圾 单元 。 维 护 引用 计数 的 时 间 开 
销 很 大 ; 指针 赋值 p := q 导致 A a 指向 的 存储 块 引用 计数 都 发 生变 化 。p 指向 的 块 数 减 1， 而 
qa 指向 的 块 数 加 1。 引 用 计数 的 方法 在 不 存在 引用 循环 的 情况 下 效果 较 好 。 例 如 ， 在 图 7-44 中 ， 
每 个 块 都 不 能 被 任何 其 他 程序 访问 ， 因 此 它们 
都 是 垃圾 单元 ， 但 是 每 一 个 的 引用 计数 均 为 1。 CO m 

2. 标记 技术 。 另 一 种 方法 是 暂时 挂 起 目前 CSE. all 
执行 的 用 户 程序 ， 并 利用 静态 指针 来 判断 哪些 图 7-44 引用 计数 不 为 零 的 垃圾 单元 
块 被 占用 。 这 种 方法 需要 知道 所 有 指向 堆 的 指针 。 概 念 上 ， 我 们 通过 这 些 指针 来 对 堆 内 的 存储 
空间 做 标记 ， 任 何 标记 过 的 存储 块 表示 被 占用 ， 其 他 的 可 以 被 释放 。 更 具体 地 说 ， 我 们 先 将 堆 
内 所 有 存储 块 标记 为 未 使 用 ， 然 后 根据 指针 标记 在 这 一 过 程 中 到 达 过 的 任何 块 为 已 使 用 的 存储 
块 ， 最 后 一 饥 对 堆 的 遍历 将 允许 仍 标记 为 未 使 用 的 存储 块 被 收回 。 

对 于 变 长 块 ， 我 们 有 可 能 需要 将 已 用 存储 块 从 当前 位 置 移 走 8 。 该 过 程 称 为 压缩 ， 它 将 所 
有 已 用 块 移 至 堆 的 一 端 ， 以 便 将 所 有 的 空闲 块 收集 为 一 个 大 的 空闲 块 。 压 缩 过程 也 需要 关于 指 
针 的 信息 ， 因 为 移动 一 个 已 用 块 时 ， 所 有 的 指针 都 需要 进行 相应 的 调整 。 其 优点 是 可 以 消除 可 
用 存储 的 碎片 问题 。 


7.9 Fortran 语 言 的 存储 分 配 


如 7.3 节 所 述 ，Fortran 语言 可 以 进行 静态 存储 分 配 。 但 是 ， 也 存在 一 些 问 题 ， 如 对 COMMON 
O ”对 固定 大 小 的 块 我 们 也 可 以 这 么 做 ， 但 得 不 到 什么 好 处 。 







可 选 的 块 大 小 


用 户 信息 
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和 EQUIVALENCE 声明 的 处 理 等 ， 它 们 在 Fortran 语言 中 是 比较 特殊 的 。Fortran 编译 器 可 以 产 
生 大 量 的 数据 区 ， 即 用 来 保存 对 象 值 的 存储 志 。 在 Fortran 中 ， 每 一 个 过 程 使 用 一 个 数据 区 ， 
每 一 个 已 命名 COMMON 块 和 空白 COMMON ， 如 果 使 用 的 话 ， 也 使 用 一 个 数据 区 。 符 号 表 中 必须 
记录 每 一 个 名 字 所 在 的 数据 区 以 及 在 此 数据 区 内 的 偏 移 〈 即 相对 于 该 数据 区 起 点 的 位 置 )。 编 
译 器 必须 最 终 决定 数据 区 与 可 执行 代码 的 对 应 关系 以 及 数据 区 之 间 的 对 应 关系 ， 但 是 这 个 选择 
是 比较 武断 的 ， 因 为 各 个 数据 区 相互 独立 。 

编译 器 必须 计算 各 个 数据 区 的 大 小 。 对 于 过 程 的 数据 区 来 说 ， 一 个 计数 器 就 足够 了 ， 因 为 
每 个 过 程 处 理 完 后 就 可 以 知道 它们 的 大 小 。 对 于 COMMON 块 来 说 ， 在 所 有 过 程 的 处 理 期 间 必 
须 为 每 一 个 块 保存 一 条 记录 ， 因 为 每 个 使 用 块 的 过 程 可 能 需要 不 同 的 大 小 ， 而 实际 的 大 小 是 各 
过 程 所 需要 的 最 大 值 。 如 果 分 别 编译 各 过 程 ， 则 在 进行 连接 的 程序 间 必 须 使 用 链接 编辑 程序 将 
COMMON 块 的 大 小 定 为 同名 块 的 最 大 值 。 

编译 器 为 每 个 数据 区 建立 一 个 内 存 映像 ， 用 来 描述 这 一 数据 区 的 内 容 。 这 个 内 存 映像 可 能 
仅仅 包括 名 字 在 符号 表 中 的 表 项 或 在 数据 区 的 偏 移 。 我 们 不 需要 回答 “该 数据 区 内 都 有 酸 些 名 
字 ? ”但 是 , 在 Fortran 中 ， 对 所 有 过 程 的 数据 区 我 们 知道 上 述 问题 的 答案 ， 因 为 在 过 程 中 声 
明 的 所 有 名 字 (如果 不是 COMMON 中 的 名 字 或 等 价 于 CoOMMON 中 的 名 字 ) 都 在 该 过 程 的 数据 
KH, COMMON 名 字 的 符号 表 表 项 按照 它们 在 块 中 出 现 的 顺序 被 链接 起 来 。 实 际 上 ， 直 到 整个 
过 程 处 理 完 才能 确定 名 字 在 数据 区 中 的 偏 移 ( Fortran 中 ， 数 组 可 以 在 声明 维 数 之 前 进行 声明 )， 
所 以 建立 COMMON 名 字 链 是 很 必要 的 。 

一 个 Fortran 程序 由 主 程序 、 子 程序 和 函数 〈 我们 将 其 统称 为 过 程 ) 组 成 。 名 字 的 每 一 次 
出 现 都 有 一 个 作用 域 ， 该 作用 域 只 包含 一 个 过 程 。 到 达 过 程 的 结尾 时 我 们 就 可 以 为 该 过 程 生成 
目标 代码 。 如 果 这 样 的 话 ， 符 号 表 中 的 大 部 分 信息 就 都 可 以 被 删 掉 。 我 们 只 需要 保存 那些 外 部 
名 字 ， 即 其 他 过 程 或 common 块 中 的 名 字 。 这 些 名 字 对 于 被 编译 的 整个 程序 来 说 可 能 不 是 外 
部 的 ， 但 必须 将 它们 保留 到 所 有 的 过 程 都 处 理 完 为 止 。 
7.9.1 COMMON 区域 中 的 数据 . 

我 们 为 每 个 COMMON 块 建立 一 条 记录 ， 记 录 中 给 出 该 块 中 声明 的 属于 当前 过 程 的 第 一 个 和 
最 后 一 个 名 字 。 当 处 理 如 下 声明 的 时 候 : 


COMMON /BLOCK1/ NAME1, NAME2 


编译 器 必须 做 如 下 工作 : 

1. 在 COMMON 块 名 字 的 表 中 ， 如 果 不 存在 BLOCK1 的 记录 ， 为 BLOCK1 建立 一 条 记录 。 

2. 在 符号 表 的 NAME1 和 NAME2 的 表 项 中 ， 建 立 一 个 指针 使 之 指向 符号 表 中 BLOCK1 的 
表 项 ， 表 示 它 们 在 COMMON 块 中 ， 而 且 是 BLOCK1 的 成 员 。 

3. a) 如 果 刚 刚 为 BLOCK1 建立 了 记录 ， 则 在 记录 中 设置 一 个 指向 符号 表 中 NAME1 表 项 的 
指针 ， 用 以 指示 该 COMMON 块 中 的 第 一 个 名 字 。 然 后 使 用 为 连接 相同 的 COMMON 块 的 成 员 而 
保留 的 符号 表 域 将 符号 表 中 NAME1 的 表 项 与 NAME2 的 表 项 连接 起 来 。 最 后 ， 在 BLOCK1 的 
记录 中 设置 一 个 指向 符号 表 中 NAME2 表 项 的 指针 ， 用 以 指示 该 块 中 的 最 后 一 个 成 员 。 

b) 如 果 这 不 是 BLOCK1 的 第 一 次 声明 ， 则 只 需 简 单 地 将 NAME1 和 NAME2 连接 到 BLOCK1 
的 成 员 列 表 末 端 即 可 。 当 然 , 在 为 BLOCK] 建立 的 记录 中 指向 BLOCK1 列表 末端 的 指针 也 和 需 
要 随 之 更 新 。 

处 理 完 一 个 过 程 后 ， 我 们 将 应 用 稍 后 提 到 的 等 价 算法 。 我 们 也 许 会 发 现 common 中 有 一 些 
额外 的 名 字 ， 这 是 因为 它们 与 common 中 的 某 些 名 字 等 价 。 实 际 上 没有 必要 将 这 样 的 名 字 
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XYZ 连接 至 common 块 的 列表 中 。 符 号 表 中 XYz 的 表 项 中 有 一 位 ， 通 过 对 这 一 位 进行 设置 来 
表示 XYZ 与 某 一 个 名 字 等 价 。 后 面 将 要 提 到 一 个 数据 结构 ， 用 来 给 出 这 样 的 xvz 相对 于 在 
COMMON 中 声明 的 某 个 名 字 的 位 置 。 

执行 了 这 样 的 等 价 操作 以 后 ， 我 们 可 以 通过 扫描 块 中 名 字 的 列表 来 为 每 一 个 COMMON 块 建 
立 一 个 内 存 映 像 。 将 计数 器 初始 化 为 零 ， 并 且 使 得 列表 中 的 每 一 个 名 字 的 偏 移 等 于 计数 器 的 当 
前 值 。 然 后 ， 将 名 字 所 代表 的 数据 对 象 所 占用 的 内 存单 元 数 加 到 计数 器 中 。 这 样 COMMON k 
记录 可 以 被 删除 ， 其 空间 可 以 被 下 一 过 程 使 用 。 

如 果 COMMON 中 的 名 字 XYz 与 另 一 个 不 在 COMMON 中 的 名 字 等 价 ， 我 们 必须 确定 从 XYz 
至 其 他 等 价 于 xyz 的 名 字 的 偏 移 的 最 大 


值 。 例 如 ， 如 果 XYz 是 一 个 实数 ， 等 价 于 
A(5,5), 此 处 A 是 一 个 10 x 10 的 实数 数组 。 
A (1,1) 在 XYz 之 前 44 个 字 的 位 置 ， 而 
A(10,10) Æ XYZ 后 55 个 字 出 现 ， 如 图 7- 
45 所 示 。 入 的 存在 不 影响 COMMON Higit 


A(1,1) 

COMMON 块 a(5,5) 
的 数据 区 

A( 10,10) 
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数 器 ， 计 数 器 仅 当 XYz 被 考虑 时 才 递 增 1 个 字 ， 与 XY2 与 谁 等 价 无 关 。 但 是 ，COMMON 块 的 数 
据 区 末端 必须 与 起 始 端 距离 足够 远 ， 以 便 用 来 分 配 数 组 A。 因 此 ， 我 们 记录 从 COMMON 块 的 开 
始 至 任何 等 价 于 该 块 成 员 名 字 的 最 大 偏 称 。 在 图 7-45 中 ， 数 量 至 少 为 xvz 的 偏 移 加 上 55。 我 
们 同时 需要 检查 数组 A 没有 超出 数据 区 的 起 始 位 置 。 也 就 是 说 ，xYz 的 偏 移 至 少 为 4， 否 则 ， 
将 产生 错误 诊断 信息 。 
7.9.2 一 个 简单 的 等 价 算法 

第 一 个 处 理 等 价 语句 的 算法 出 现在 汇编 器 而 不 是 编译 器 中 。 因 为 这 些 算法 比较 复杂 ， 尤 其 
是 考虑 到 COMMON 和 EQUIVALENCE 声明 之 间 的 相互 作用 ， 所 以 先 考虑 汇编 语言 中 的 一 种 典 
型 情况 。 在 这 种 情况 下 ，EQUIVALENCE 语句 的 格式 为 : 


EQUIVALENCE A, Broffset 


Ep, a 和 B 是 存储 单元 的 名 字 。 该 语句 使 得 A 表示 位 置 B 以 后 偏 移 量 为 offset 的 内 存单 元 所 
在 的 位 置 。 

一 系列 的 EQUIVALENCE 语句 将 一 组 名 字 归 为 一 个 等 价 集合 ， 它 们 彼此 之 间 的 相对 位 置 
都 通过 EQUIVALENCE 语句 来 定义 。 例 如 ， 声 明 序 列 

EQUIVALENCE A，B+100 

EQUIVALENCE C, D-40 

EQUIVALENCE A, C+30 

EQUIVALENCE E, F 
将 名 字 划 分 为 集合 {A, B, C, D} 和 {E,F} ， 其 中 EE 和 F 代表 相同 的 位 置 。Cc 在 B 后 70 个 单元 处 ， 
A Æc 后 30 个 单元 处 ， 而 D 在 A 后 10 个 单元 处 。 

为 了 计算 等 价 集合 ， 我 们 为 每 一 个 集合 建立 一 棵 树 。 树 中 每 一 个 节点 表示 一 个 名 字 ， 同 时 
包含 相对 于 父 节点 的 偏 移 量 。 在 树 根 节点 的 名 字 称 为 入 口语 和 句 〔 leader )， 任 何 名 字 相 对 于 入 口 
语句 的 位 置 可 以 根据 从 根 到 该 节点 的 路 径 上 所 有 仿 移 量 之 和 来 确定 。 


例 7.12 上 述 等 价 集合 {A, B, C, D} 可 以 用 图 7-46 中 的 树 来 表示 。D 是 人 口语 句 ， 我 们 可 以 
发 现 A 在 D 前 10 个 单元 处 ， 这 是 因为 从 A 到 D 的 路 径 上 的 偏 移 量 之 和 为 100 + (-110) = 
-10。 o 


297 





图 7-46 表示 等 价 集合 的 树 
下 面 我 们 给 出 构造 等 价 集合 树 的 算法 。 符 号 表 项 中 的 相关 域 为 :; 


1. parent， 指 向 符号 表 中 父 节 点 的 表 项 ， 如 果 该 名 字 为 根 则 其 值 为 空 (或 不 等 价 于 其 他 任 
WAF) 


2. offset， 给 出 一 个 名 字 相 对 于 父 节点 名 字 的 偏 移 量 。 

在 该 算法 中 我 们 假设 任何 名 字 均 可 以 作为 等 价 集合 中 的 入 口语 句 。 实际 上 , 在 汇编 语言 中 ， 
集合 中 有 且 只 能 有 一 个 名 字 利 用 伪 操 作 定义 实际 位 置 ， 而 该 名 字 将 作为 人 口语 句 。 可 以 很 容易 
地 改变 该 算法 ， 使 之 只 采用 一 个 特定 的 入 口语 句 。 

算法 7.1 等 价 树 的 构造 。 

输入 : 如 下 形式 的 等 价 定义 语句 序列 : 


EQUIVALENCE A, B+ dist 


输出 : 等 价 树 集合 ， 满 足 对 于 输入 的 等 价 序列 中 出 现 的 任何 名 字 ， 我 们 都 可 以 通过 计算 从 
名 字 到 根 的 路 径 中 偏 移 量 的 和 来 确定 该 名 字 相 对 于 入 口语 名 的 距离 。 

方法 : 对 于 每 一 个 等 价 语句 EQUIVALENCE A, B+dist, 依次 重复 图 7-47 中 的 步骤 。 第 (12) 
行 的 公式 计算 A 的 入 口语 名 与 B 的 入 口语 句 的 相对 偏 移 。A 的 位 置 ( 记 为 ) 等 于 c 加 上 A 的 入 口 
语句 的 位 置 ( 记 为 ma )。B 的 位 置 ( 记 为 1s ) 等 于 d WME B 的 入 口语 句 的 位 置 (WA m) AX 


la = lg + dist, 所 以 c+ ma= d+ ms + dist, BD ma - mg = d -c + dist, O 


n 
d) Sp 和 4 分 别 指向 节点 A 和 Bi 
(2) c:= 0; d := 0; /Vr#c 和 qd 用 来 计算 A 和 B 相 对 于 它们 各 自 集 合 的 人 口语 句 的 偏 稀 */ 
(3) while parent(p) # null do begin 
(4) c:= c + offset(p); 
(5) p := parent (p) 
end;  /» 使 p 指 向 a 的 入 口语 句 , 并 累加 偏 移 */ 
(6) while parent(q) + null do begin 
(nD d := d + offset(q); 
(8) q := parent(q) 
end; /* 对 B 执 行 同样 的 工作 *V 
(9) if p = q then /* A 和 B 等 价 #*/ 
(10) if c —d £ dist then error, 
A/# A 和 B 已 经 赋 成 了 不 同 的 相对 位 置 */ 
else begin 。 /+ 合并 集合 A 和 B #*/ 
(11) parent(p) := 9g /*SaWADIAARA B 的 人 口语 名 的 儿子 «7 
a child of B's leader #/ 
(12) offset(p) := d—c+dist 
end 
end 





图 7-47 等 价 算法 
例 7.13 ”如 果 我 们 处 理 如 下 语句 : 


> 
A 
© 
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EQUIVALENCE A, B+100 

EQUIVALENCE C, D-40 
我 们 将 得 到 图 7-46 所 示 的 格局 ， 只 是 在 节点 B 中 没有 偏 移 -110， 而 且 没 有 B 到 D 的 链接 。 当 
我 们 处 理 如 下 语句 时 : 


EQUIVALENCE A, C+30 


我 们 发 现 执行 完 第 (3) 行 的 while Ja, p 指向 B， 而 执行 完 第 (6) 行 的 while JS, q 指向 D。 我 们 
也 得 到 c = 100、d = -40。 在 第 (11) 行 处 我 们 使 得 D 成 为 B 的 父 节 点 ，B 节点 的 offser 域 值 为 
-110， 也 就 是 ( -40) - (100) +30。 口 


算法 7.1 的 时 间 复 杂 性 为 rx*， 其 中 为 要 处 理 的 等 价 语句 的 条 数 ， 因 为 最 坏 情况 下 ， 第 (3) 行 
和 第 (6) 行 的 循环 对 于 各 自 树 中 的 每 一 个 节点 都 需要 执行 一 遍 。 等 价 操作 在 编译 时 只 需要 很 少 
的 一 个 时 间 片 断 ， 因 些 亚 步 的 代价 并 不 大 ， 而 且 比 名 7-47 算 法 更 加 复杂 的 算法 也 许 并 不 适用 。 
但 是 我 们 可 以 通过 做 很 简单 的 两 个 工作 便 可 以 使 得 算法 7.1 在 处 理 一 些 等 价 语句 时 的 复杂 性 降 
为 线性 。 一 般 地 ， 等 价 集合 可 能 大 不 到 需要 使 用 这 些 优化 ， 值 得 注意 的 是 等 价 操作 可 以 用 在 许 
多 像 集 合 合并 这 样 的 处 理 中 。 例 如 ， 很 大 一 部 分 高 效 的 数据 流 分 析 算 法 均 建 立 在 快速 等 价 算法 
上 ， 有 兴趣 的 读者 可 以 参考 第 10 章 的 参考 文献 注释 。 

第 一 种 优化 方法 是 我 们 可 以 为 每 一 个 人 口语 名 保存 其 树 中 的 节点 数 。 然 后 ， 在 第 (11) 和 
(12) 行 ， 不 是 简单 地 将 A 的 人 口语 句 链接 至 B 的 人 





begin 





口语 句 ， 而 是 将 计数 值 少 的 链接 到 另外 一 个 上 。 这 h := offering: 
样 使 得 树 可 以 横向 增长 ， 以 减少 树 的 高 度 。 这 种 方 for í := k—2 downto 1 do begin 
式 完成 的 n 个 等 价 不 会 产生 长 于 logsn 个 节点 的 路 Rp erin: 
径 ， 其 证 明 留 作 练 习 。 offset (n) = h 
第 二 种 方法 是 路 径 压缩 。 当 在 第 (3) 行 和 第 (6) 行 nd 
的 循环 中 沿 着 路 径 到 达 树 根 时 ， 使 得 所 有 过 到 的 节 
点 变 成 人 口语 句 的 子 节点 。 也 就 是 说 ， 沿 着 路 径 记 图 7-48 偏 移 的 调整 


录 遇 到 的 所 有 节点 n, m2,…, mx， 这 里 m 是 和 A 或 者 B 的 节点 ，m 是 人 口语 句 。 然 后 按照 图 7-48 
中 的 步骤 调整 偏 移 量 ， 使 得 n,n;,…, rmx_z 成 为 nm 的 子 节 点 。 
7.9.3 Fortran 语 言 的 等 价 算法 

要 使 算法 7.1 适 用 于 Fortran 语言 ， 则 必须 加 入 一 些 新 特性 。 首 先 ， 我 们 必须 确定 等 价 集合 
是 否 在 COMMON 中 。 这 可 以 通过 如 下 方式 实现 : 对 于 每 一 个 人口 语句， 记录 其 集合 中 的 每 一 个 
名 字 是 否 在 COMMON 中 ， 如 果 是 的 话 ， 在 哪 一 个 块 中 。 

第 二 ， 在 汇编 语言 中 ， 等 价 集合 的 一 个 成 员 会 成 为 一 个 语句 的 标号 ， 使 得 集合 中 所 有 名 字 
所 表示 的 地 址 都 可 以 相对 于 这 个 位 置 进行 计算 。 但 是 ， 在 Fortran 语言 中 是 由 编译 器 决定 存储 
位 置 的 ， 所 以 一 个 不 在 CoOMMON 中 的 等 价 集合 可 以 被 看 作 是 “浮动 ”的 ， 直 到 编译 器 在 合适 的 
数据 区 确定 整个 集合 的 位 置 。 为 了 正确 地 执行 ， 编 译 器 需要 知道 等 价 集合 的 外 延 ， 即 集合 中 名 
字 所 占 存 储 单 元 的 个 数 。 为 了 处 理 这 个 问题 ,我 们 给 入 口语 句 增加 low 和 high 两 个 域 ， 分 别 
代表 等 价 集合 中 相对 于 入 口语 句 的 最 小 和 最 大 偏 移 量 。 第 三 ， 名 字 可 以 是 数组 ， 而 且 数 组 中 间 
的 位 置 可 以 等 价 于 其 他 数组 中 的 某 个 位 置 ， 这 些 事 实 也 带 来 了 一 些小 问题 。 

由 于 与 每 一 个 入 口语 句 相关 的 有 三 个 域 (low、high 以 及 一 个 指向 COMMON 块 的 指针 )， 我 
们 不 希望 在 所 有 的 符号 表 表 项 中 为 这 三 个 域 分 配额 外 的 空间 。 一 种 方法 是 使 用 算法 7.1 中 入 口 
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语句 的 parent 域 指 向 一 个 新 表 中 的 记录 ， 该 记录 包括 三 个 域 ， low、high 和 comblk。 由 于 该 表 
与 符号 表 占 据 不 相交 的 两 个 区 域 ， 所 以 我 们 可 以 知道 指针 指 的 是 哪 一 个 表 。 另 一 种 方法 是 ， 符 
号 表 可 以 包含 一 个 位 用 以 指示 某 个 名 字 是 否 为 人 口语 句 。 如 果 空 间 的 确 很 宝贵 的 话 ， 另 外 一 个 
算法 可 以 避免 消耗 这 额外 的 一 位 ， 进 一 步 的 编程 技巧 将 在 练习 中 加 以 讨论 。 

下 面 我 们 考虑 替换 图 7-47 中 第 (11) 、(12) 行 的 计算 表达 式 。 如 图 7-49a 所 示 ， 分 别 由 指针 p 
和 4 指向 的 入 口语 句 对 应 的 两 个 等 价 集合 必须 合并 。 表 示 这 两 个 等 价 集合 的 数据 结构 如 图 7-49b 
所 示 。 首 先 ， 我 们 必须 检查 确认 两 个 等 价 集合 中 没有 两 个 成 员 出 现在 COMMON 中 。 即 使 它们 都 
属于 同一 个 块 ，Fortran 语言 也 禁止 它们 等 价 。 如 果 任 何 一 个 common 块 包含 一 个 属于 某 一 个 
等 价 集合 的 成 员 ， 则 合并 后 的 集合 包含 一 个 指向 comblk 中 相应 块 记录 的 指针 。 完 成 这 一 检查 
工作 的 代码 (假设 q 指向 的 人 口语 句 成 为 合并 后 等 价 集合 的 人 口语 句 )， 如 图 7-50 所 示 。 在 图 
7-47 中 的 第 (1D) 、(12) 行 ， 我 们 必须 计算 合并 后 等 价 集合 的 外 延 。 图 7-49a 给 出 了 计算 与 4 指向 
的 入口 语句 相关 的 low 和 high 的 计算 公式 。 


由 p 所 指向 的 入 
low] is E high | 
c 
low a 的 位 置 ' 
| k ais —a ! 
za 的 位 置 high 
d 
low2 由 g 所 指向 的 人 high2 
口语 句 的 位 置 


low = min(low2, lowl —c + dist +d) 
high = max(high2, high\ — c + dist + d) 


a) 
low | low2 
Le} a wen Pa} 4 high 2 
comblk | comblk 2 

b) 


图 7-49 合并 等 价 集 
a) 等 价 集合 的 相对 位 置 b) 数据 结构 


于 是 我 们 必须 进行 如 下 计算 : 


begin ` 
begin comblk | := comblk {parent (p)); 
low (parent (q)) := min(low (parent (q)), comblk 2 := comblk (parent (q)); 
low (parent (p))—c + dist +d); if combik| + null and combik2 + null then 
high (parent (q)) := max(high (parent (q)), error,  /* CDMMON 中 的 两 个 名 字 等 价 #*/ 
high (parent (p))—c + dist +d) else if combik2 = null then 
end combik (parent(q)) := comblk | 
这 些 语句 置 于 图 7-47 中 第 (11) 、(12) 行 语句 - 
后 ， 用 来 反映 两 个 等 价 集合 的 合并 。 FR7-50 H common 5X 


为 了 使 得 算法 7.1 适 用 于 Fortran， 还 必须 做 最 后 两 件 事情 。 在 Fortran 中 ， 我 们 可 以 令 一 个 
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数组 的 中 间 位 置 与 其 他 数组 中 的 某 个 位 置 或 者 简单 名 字 等 价 。 数 组 A 的 相对 于 它 的 入口 语句 的 
偏 移 指 的 是 A 的 第 一 个 位 置 相对 于 入 口语 句 的 第 一 个 位 置 的 偏 移 。 如 果 位 置 A (5,7 ) 等 价 于 
B(20) ， 我 们 必须 计算 A(5,7) 相对 于 A (1,1) 的 位 置 ， 图 7-47 中 第 (2) 行 将 c 初始 化 为 这 段 距离 
的 负 值 。 同 样 ，d 必须 被 初始 化 为 B(20) 相对 于 B (1) 的 距离 的 负 值 。8.3 节 的 公式 以 及 数组 A 
和 8 中 元 素 的 大 小 足以 计算 c 和 4 的 初始 值 。 

最 后 一 点 是 Fortran 允许 涉及 许多 位 置 的 EQUIVALENCE 语句 ， 比 如 


EQUIVALENCE (A(5,7), B(20), C, D(4,5,6)) 
它 可 以 被 分 解 为 : 


EQUIVALENCE (B(20), A(5,7)) 
EQUIVALENCE (C, A(5,7)) 
EQUIVALENCE (D(4,5,6), A(5,7)) 


注意 ， 如 果 我 们 依照 该 顺序 执行 等 价 操 作 ， 只 有 a 成 为 具有 多 于 一 个 元 素 的 集合 的 人 口语 句 。 
一 个 带 有 low, high 和 comblk 的 记录 可 以 被 单个 名 字 的 等 价 集合 使 用 多 次 。 
7.9.4 映射 数据 区 

现在 我 们 描述 为 每 个 例 程 的 名 字 分 配 各 种 数据 区 中 的 空间 时 所 遵循 的 一 些 规则 。 

1. 对 于 每 一 个 COMMON 块 ， 按 照 名 字 在 块 中 的 声明 顺序 进行 访问 〈 利用 符号 表 中 产生 的 
COMMON 名 字 列 表 )。 依 次 为 各 个 名 字 分 配 所 需 的 字数 的 空间 ， 并 保持 一 个 分 配 字 数 计数 器 ， 
以 便 可 以 计算 每 一 个 名 字 的 偏 移 。 如 果 一 个 名 字 A 被 等 价 ， 则 不 论 该 等 价 集合 的 外 延 多 大 ， 我 
们 必须 检查 A 的 人 口语 名 的 low 值 ， 使 其 不 超出 COMMON 块 的 起 始 界 。 参 考 人 口语 名 的 high 
值 为 块 中 最 后 一 个 字 确 定 一 个 底 限 。 这 些 计算 的 精确 公式 留 给 读者 思考 。 

2. 按 任意 顺序 访问 例 程 中 的 所 有 名 字 。 

a) 如 果 一 个 名 字 出 现在 COMMON 中 ， 则 什么 也 不 做 ， 空 间 已 经 在 (1 ) 中 被 分 配 。 

b) 如 果 一 个 名 字 没 有 出 现在 common 中 而 且 没 有 等 价 名 字 ， 在 数据 区 中 为 该 例 程 分 配 相 
应 字数 的 空间 。 

c) 如 果 一 个 名 字 有 等 价 名 字 ， 找 到 它 的 人 口语 句 ， 设 为 L。 如 果 工 已 经 在 例 程 的 数据 区 中 
被 分 配 了 位 置 ， 通 过 求 A 至 人 口语 句 的 路 径 上 所 有 偏 移 量 的 和 来 计算 A 的 位 置 。 如 果 L 没有 被 
分 配 位 置 ， 将 数据 区 中 接 下 来 的 high-low 个 字 分 配给 该 等 价 集合 。L 在 这 些 字 中 的 位 置 距离 
起 始 处 -low 个 字 ，& 的 位 置 可 以 像 前 面 那样 通过 求 偏 移 之 和 来 确定 。 


练习 


program alinput, output); 


7.1 利用 Pascal 的 作用 域 规则 ， 确 procedure blu,v,x,y: integer); 


var a : record a, b : integer end; 


定 图 7-51 中 对 应 于 名 字 a, b b : record b, a : integer end; 

、 begin 
的 每 次 出 现 的 声明 。 该 程序 with a do begin a := u; b :x v end; 
的 输出 由 整数 1 到 4 组 成 。 with b do begin a := x; b := y end; 


72 考虑 一 个 块 结构 的 语言 ， 其 writeln(a.a, a.b, b.a, b.b) 
中 一 个 名 字 可 以 被 声明 为 整 
型 或 者 实 型 。 假 设 表达 式 用 
终结 符 expr 表示 ， 而且 语句 
只 包括 赋值 、 条 件 、while 和 





图 7-51 带 有 a、b 的 多 个 声明 的 Pascal 程序 
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7.5 


7.6 


7.7 


7.8 


顺序 语句 。 又 假设 整 型 占用 一 个 字 ， 实 型 占用 两 个 字 。 给 出 一 个 语法 制导 算法 (基于 
声明 和 块 的 合理 文法 ) 以 确定 从 名 字 到 可 以 被 块 的 活动 记录 所 使 用 的 字 的 绑 定 。 你 的 
存储 分 配 使 用 的 是 可 以 满足 块 的 任何 执行 的 最 少 的 字数 吗 ? 

在 7.4 节 中 我 们 说 明了 如 果 每 个 深度 为 i 的 过 程 都 在 活动 的 开始 处 保存 df 让 ， 并 在 活动 
结束 时 恢复 d[i] display 表 将 正确 保持 。 试 对 调用 次 数 进 行 归纳 ， 证 明 每 个 过 程 都 能 
得 到 正确 的 display 表 项 。 

宏 是 过 程 的 一 种 形式 ， 是 通过 将 过 程 的 每 一 次 调用 用 宏 按 字面 进行 替换 来 实现 的 。 图 
7-52 给 出 了 一 个 Pic 程序 及 其 输出 。 前 两 行 定义 了 宏 show 和 smal1l。 宏 的 过 程 体 的 
包含 在 两 个 % 之 间 。 图 中 的 四 个 圆 都 是 用 宏 show 画 出 的 ， 圆 的 半径 通过 非 局 部 变量 
r 来 给 出 。Pic 中 的 程序 块 用 [和 ] 括 了 起 来 。 分 配给 这 个 程序 块 的 每 个 变量 都 在 块 中 
隐 式 地 声明 。 根 据 此 输出 ， 你 能 指出 r 的 每 次 出 现 的 作用 域 吗 ? 


define show % { circle radius r at Here } % 
define small % [ r = 1/12; show ] % | 
C 


r = 1/6; 
show; small; 
move; 

show; small; 


(9 © 


图 7-52 Pic 程序 画 出 的 圆 





写 一 个 过 程 ， 通 过 传递 指向 链表 头 的 指针 来 一 

向 链表 中 插 人 一 项 。 哪 种 参数 传递 机 制 能 够 PO re Ce se 
正确 实现 该 过 程 ? begin 

假设 采用 以 下 参数 传递 机 制 : (a) 传 值 调用 ， yee 

(b) 引用 调用 ，(c) 复制 -恢复 ，(d) 传 名 调用 ， ; 

图 7-53 中 程序 显示 的 分 别 都 是 什么 ? oa 

在 词法 作用 域 语 言 中 ， 如 果 过 程 被 作为 参数 b= 3, 

传递 ， 它 的 非 局 部 环境 可 以 用 一 个 访问 链 来 plat, a, a); 

传递 。 试 给 出 一 个 确定 该 访问 链 的 算法 。 printa 


图 7-54 中 的 Pascal 程序 阐述 了 与 作为 参数 传 

递 的 过 程 相关 的 三 种 环境 一 一 词法 环境 、 传 图 7-53 说 明 参 数 传递 的 伪 码 程序 

递 环境 和 活动 环境 。 过 程 的 这 三 个 环境 分 别 由 定义 过 程 、 作 为 参数 传递 过 程 和 活动 过 

程 中 标识 符 的 绑 定 构成 的 。 注 意 函 数 E 在 第 (10) 行 被 作为 参数 传递 。 

使 用 £ 的 词法 环境 、 传 递 环境 和 活动 环境 ， 第 (8) 行 的 非 局 部 变量 m 分 别 出 现 在 第 (6)、 
(10) 和 (3) 行 中 m 的 声明 的 作用 域 中 。 

a) 画 出 该 程序 的 活动 树 。 

b) 使 用 f 的 词法 环境 、 传 递 环境 和 活动 环境 ， 该 程序 的 输出 分 别 是 什么 ? 

* c) 当 激 活 一 个 作为 参数 被 传递 的 过 程 时 ， 修 改 词法 作用 域 语言 中 display 表 的 实现 方 
式 ， 以 正确 建立 词法 环境 。 
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(1) program param(input, output); 
(2) procedure b(function h(n: integer): integer) ; 


(3) var m : integer; 

(4) begin m := 3; writeln(h(2)) end { b }; 
(5) procedure c; 

(6) var m : integer; 

(7) function f(n : integer) : integer; 
(8) begin £ := m + n enå { f }; 

(9) procedure r; 

(10) var m ; integer; 

(11) begin m := 7; b(f) end { r }; 
(12) begin m := 0; r end { c }; 

(413) begin 

(14) c 

(15) end. 








图 7-54 词法 环境 、 传 递 环 境 和 活动 环境 的 例子 
*7.9 图 7-55 的 伪 码 程序 中 ， 第 (11) 行 的 








:五 4 on (1) program ret (input, output); 
语句 f:=a 调用 函数 a, CH Pa (2) var f: function (integer): integer ; 
addm 作为 结果 返回 。 | 

_ pn py eae (3) function a : function (integer): integer ; 
a) 图 出 该 程序 执行 的 活动 树 。 (4) var m: integer; 
b) 假设 非 局 部 变量 用 于 词法 作用 (5) function addm(n : integer) : integer; 

ww yp (6) begin return m + n end; 

域 。 为 什么 当 采 用 栈 式 存储 分 (7D begin m := 0; return addm end; 

配 时 会 导致 该 程序 执行 失 败 ? (8) procedure b(g : function (integer) : integer); 
c) 采用 堆 式 分 配 时 ， 该 程序 的 输 (9) begin writein(g(2)) end; 





出 是 什么 ? 
*7.10 某 些 语言 ， 如 Lisp， 可 以 在 运行 
时 返回 新 产生 的 过 程 。 在 图 7-56 
中 ， 所 有 函数 ， 无 论 是 在 源 程序 图 7-55 函数 addam 作为 结果 返回 的 伪 码 程序 
正文 中 定义 的 还 是 运行 时 产生 的 ， 都 至 多 接受 一 个 参数 ， 并 返回 一 个 值 : 函数 或 者 
SEH. RER “o” AR PAH HL, BW (fo 2x) =f (ge ao 
a) 主 程序 main 的 显示 值 是 什么 ? 
*b 假设 无 论 何 时 过 程 p 被 创建 或 返回 ， 它 的 活动 记录 都 成 为 返回 的 函数 的 活动 记 
录 的 子 记录 。p 的 传递 环境 可 以 通过 保存 一 个 活动 记录 树 而 不 是 使 用 栈 来 维护 。 
当 a 由 图 7-56 中 的 main 计算 时 活动 记录 树 是 什么 ? 
* c) 假设 激活 p 时 建立 p 的 活动 记录 , 并 令 其 作为 调用 p 的 过 程 的 活动 记录 的 子 记 录 。 
这 种 方法 可 用 来 维持 p 的 活动 环境 。 画 出 执行 main 中 语句 时 的 活动 记录 及 它们 
之 间 的 父子 关系 。 使 用 这 种 方法 时 ， 栈 是 否 足以 用 来 保存 活动 记录 ? 
TAL 另 一 种 从 散 列 表 中 删除 名 字 ( 其 作用 域 已 经 被 穿 过 ， 如 7.6 节 所 述 ) 的 方法 是 将 过 期 
的 名 字 保 存在 列表 中 ， 直 到 列表 被 再 次 搜索 。 假 设 表 项 中 包含 声明 所 在 的 过 程 的 名 
字 ， 我 们 就 可 以 知道 一 个 名 字 是 否 过 期 ， 如 果 过 期 就 删除 它 。 试 给 出 一 个 过 程 的 索 
引 方式 ,使 之 能 在 0(1) 时 间 内 得 出 一 个 过 程 是 否 过 期 ， 即 已 经 经 过 其 作用 域 。 
7.12 许多 散 列 函数 可 以 用 一 个 整数 序列 oo, 0, … 来 刻画 。 如 果 c ( 1<isn ) 是 字符 串 s 


(10) begin 
(11) f:= a,b) 
end. 
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* 7.13 


** 7,14 


7.15 


* 7.16 


中 的 第 ;个 字符 的 整数 值 ， 则 该 字符 串 被 散 列 到 如 下 位 置 : 


hash(s) = (ag + Faic) mod m function f (x : function); 
i=l var y: function; 
其 中 站 是 获 列 表 的 大 小 。 对 于 下 人 
列 情况 ， 确 定常 数 序列 ao, ai， …， end { f}; 
或 者 证 明 其 不 存在 。 每 一 种 情况 function A (); 
确定 一 个 整数 ， 散 列 值 即 由 该 束 ean 
数 模 m 获得 。 function (z : function); 
a) 取 所 有 字符 的 和 。 var w: function; 
b) 取 第 一 个 与 最 后 一 个 字符 的 和 。 w := arctan oz; /* 执行 时 创建 w #7 
c) Wan, HP ho= 0, hi = 2hi_i+cio return w 


end { g }; 


d 将 中 间 四 个 符号 作为 一 个 32 位 
整数 。 


function main (); 
var a: real; 


e) 一 个 32 位 整数 可 以 看 作 是 由 4 个 u“, v: function; 
字 节 组 成 ， 每 个 字 节 代表 一 个 evo, 
数字 ,该 数字 有 256 种 可 能 的 值 。 a := u(w2); 
从 0000 开 始 ， 对 1<i<n, 把 6 end { main} 
加 到 第 mod 4 个 字 节 ,并 且 人 允 
许 进位 。 例 如 ，c, 和 cs 被 加 给 图 7-56 ETETE BURRS ORS BT 


第 一 个 字 节 ，c: 和 cs 加 给 第 二 个 字 节 ， 依 此 类 推 。 返 回 最 终 值 。 

如 果 输 入 由 连续 的 字符 品 (vooo, vool, … ) 组 成 ， 为 什么 练习 7.12 中 由 一 系列 
整数 刻画 的 散 列 算法 执行 效果 会 不 好 ? 症状 是 在 某 处 它们 的 行为 偏离 随机 数 并 且 是 
可 预测 的 。 

如 果 n 个 字符 串 被 散 列 到 m 个 列表 中 ， 则 无 论 字符 串 的 分 布 多 么 不 均匀 ， 每 个 列表 
的 平均 串 数 都 将 是 am。 假设 d 是 一 种 分 布 ， 即 一 个 随机 的 字符 串 被 放 在 第 ;个 列表 
中 的 概率 为 4(i)。 假 设 分 布 为 4 的 散 列 函数 将 随机 选择 的 b 个 串 放 在 列表 j 中 ,0<j<< 
m-1。 证 明 期 望 值 W= LO, +1) /2 与 分 布 d 的 变化 成 线性 关系 。 在 均匀 分 布 情 
况 下 ， 证 明 期 望 值 WW 为 (w/2m)(n+2m-1)。 

假设 一 个 Fortran 程序 中 有 以 下 声明 序列 。 


SUBROUTINE SUB(X,Y) 

INTEGER A, B(20), €(10,15), D, E 
COMPLEX F, G 

COMMON /CBLK/ D, E 

EQUIVALENCE (G, B(2)) 
EQUIVALENCE (D, F, B(1)) 


指出 SUB 和 CBLK 的 数据 区 的 内 容 (至 少 从 SUB 可 以 访问 CBLK 的 部 分 数据 )。 其 
中 为 什么 没有 X 和 YY? 

用 于 等 价 计算 的 一 种 非常 有 用 的 数据 结构 是 环 状 结构 。 在 每 一 个 符号 表 表 项 中 使 用 
一 个 指针 和 一 个 偏 移 域 来 链接 等 价 集合 中 的 成 员 。 该 结构 如 图 7-57 所 示 ， 其 中 A、B、 
c, DD 等 价 ，E、F 等 价 ，B 的 位 置 在 A 的 位 置 之 后 20 个 字 处 ， 以 此 类 推 。 

a) 给 出 一 个 计算 x 相对 于 Y 的 偏 移 的 算法 ,假设 x 和 YY 在 同一 个 等 价 集合 内 。 
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b) 给 出 一 个 算法 计算 相对 于 某 个 名 字 z low 和 high 值 ， 其 定义 参见 7.9 节 。 
c) 给 出 一 个 算法 处 理 如 下 语句 : f 


EQUIVALENCE U, V 


U,V 不 一 定 在 不 同 的 等 价 集合 内 。 
Spo Eo 


图 7-57 环 状 结构 
* 7.17 7.9 节 给 出 的 映射 数据 区 算法 需要 我 们 检验 A 的 等 价 集 的 人 口语 句 的 low 值 没 有 超 
出 COMMON 块 的 起 始 边界 ， 而 且 如 果 需 要 的 话 ， 需 要 重新 计算 A 的 人 口语 句 的 
high 值 来 增 大 COMMON 块 的 上 限 。 根 据 next (COMMON 块 中 A 的 偏 移 ) 和 last 
( 块 中 最 后 的 字 )， 给 出 一 个 公式 来 测试 和 更 新 last ( 如果 需要 的 话 )。 


参考 文献 注释 


在 递归 函数 的 实现 中 ， 栈 扮演 了 举足轻重 的 角色 。McCarthy[1981, p.178] 中 回顾 了 从 1958 
年 开始 的 实现 Lisp 的 项 目 中 ， 栈 被 用 来 保存 递归 程序 中 变量 的 值 ， 以 及 子 程序 的 返回 地 址 。 
Algol 60 中 对 块 和 递归 过 程 的 引入 (详细 过 程 参 见 Naur[1981,Section 2.10] ) 也 促进 了 栈 式 分 配 
技术 的 发 展 。 使 用 display 表 描述 词法 作用 域 语言 中 访问 非 局 部 变量 的 思想 参见 Dijkstra [1960, 
1963]。 尽 管 Lisp 使 用 动态 作用 域 ， 它 也 可 能 使 用 由 函数 和 一 个 访问 链 组 成 的 “funargs” 来 达 

461| ”到 词法 作用 域 效 果 。McCarthy[1981] 描 述 了 这 种 机 制 的 发 展 。Lisp 的 后 续 版 本 ， 如 公用 Lisp 
( Steele[1984] ) 已 经 从 动态 作用 域 中 脱离 了 出 来 。 

对 于 名 字 绑 定 的 解释 可 以 从 程序 设计 语言 教科 书 中 找到 ， 参 见 Abelson and Sussman[1985]、 
Pratt[1984] 或 者 Tennent[1981]。 第 2 章 中 提出 的 另外 一 种 方法 ， 是 读 取 编 译 器 的 描述 。 在 Kernighan 
and Pikef1984] 中 ， 从 算术 表达 式 的 计算 器 到 包含 递归 过 程 的 简单 语言 的 解释 器 都 有 详细 叙述 。 关 
PRAA, display 表 的 使 用 、 数 组 的 动态 分 配 的 详细 叙述 ， 请 参见 Randell and Russell[1964]。 

Johnson and Ritchief1981] 中 讨论 了 参数 数目 可 变 的 调用 序列 的 设计 。 设 置 全 局 display 表 的 
一 般 方法 是 沿 着 访问 链 ， 在 处 理 过 程 中 设置 display 中 的 元 素 。7.4 节 中 的 方法 仅 涉 及 到 一 个 元 
素 ， 在 一 段 时 间 内 已 经 很 “有 名” 了 ， 参 见 Rohl[1975]。Moses[1970] 中 讨论 了 将 函数 作为 参 
数 传递 的 环境 的 差异 ， 而 且 指出 如 果 这 种 情况 采用 浅 访问 和 深 访 问 会 产生 的 问题 。 栈 式 分 配 不 
能 用 于 有 协同 例 程 或 多 进程 的 语言 。Lampson[1982] 考虑 了 使 用 堆 式 分 配 的 快速 实现 方法 。 

在 数理 逻辑 中 ，Fregef1879] 的 Begriffsschrift 中 提出 了 限制 作用 域 和 代 换 的 量词 。 代 换 与 
参数 传递 很 长 时 间 以 来 成 为 数理 逻辑 和 程序 设计 语言 领域 比较 热门 的 主题 。Church[1956， 
p.288] 中 指出 “函数 型 变量 的 代 换 规则 的 正确 表述 是 特别 困难 的 问题 ”， 而 且 将 这 种 规则 的 研究 
与 命题 演算 联系 起 来 。Church 的 和 演算 [1941] 已 经 被 应 用 到 了 程序 设计 语言 环境 中 ， 例 如 
Landin[1964]。 由 函数 和 访问 链 组 成 的 序 对 通常 被 称 作 闭 包 ， 参 见 Landin[1964]。 

符号 表 的 数据 结构 与 搜索 符号 表 的 算法 在 Knuth[1973b] 和 Aho，Hopcroft，and 
Ullman(1974, 1983] 中 有 详细 的 讨论 。 散 列 的 核心 技术 参见 Knuthf1973b] 和 IMorris[1968b]。 最 初 
讨论 散 列 的 文献 为 Peterson[1957]。 关 于 符号 表 组 织 技 术 的 更 多 信息 参见 McKeeman[1976]。 例 
7.10 摘 自 Bentley，Cleveland，and Sethi[1985]。Reiss[1983] 中 描述 了 一 个 符号 表 生 成 器 。 

等 价 算法 在 Arden，Galler, and Graham[1961] 和 Galler and Fischer[1964] 描 述 ; 我 们 已 经 采 
用 了 后 一 种 方法 。 关 于 等 价 算法 效率 问题 的 讨论 参见 Fischer[1972] 、Hoperoft and Uliman[1973] 

和 Tarjanf1975]。 
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在 编译 器 的 分 析 综合 模型 中 ， 前 端 将 源 程序 翻译 成 一 种 中 间 表 示 ， 后 端 根据 这 个 中 间 表 示 
生成 目标 代码 。 目 标语 言 的 细节 要 尽 可 能 限制 在 后 端 。 尽 管 源 程序 可 以 直接 翻译 成 目标 语言 ， 
但 使 用 与 机 器 无 关 的 中 间 形 式 具 有 如 下 优点 : | 

1. 再 目标 比较 容易 : 不 同 机 器 上 的 编译 器 可 以 在 已 有 前 端的 基础 上 附加 一 个 适合 这 台新 机 
器 的 后 端 来 生成 。 

2. 可 以 在 中 间 表 示 上 应 用 与 机 器 无 关 的 代码 优化 器 。 第 10 章 会 详细 讨论 这 种 优化 器 。 

本 章 说 明 如 何 使 用 第 2 章 及 第 5 章 讨论 的 语法 制导 方法 将 源 程序 翻译 成 中 间 形 式 的 编程 语言 
结构 ， 恕 声明、 赋值 及 控制 流 语句 。 为 简 音 起见， 我们 假定 源 程序 已 经 进行 过 语法 分 析 及 静态 
检查 ， 如 图 8-1 中 所 示 的 组 织 结构 。 本 章 中 大 部 分 的 语法 制导 定义 都 可 由 第 5 章 介绍 的 自 底 向 上 
或 自 顶 向 下 语法 分 析 技 术 实 现 ， 如 果 需 要 的 话 ， 可 以 将 中 间 代 码 生 成 阶段 并 入 语法 分 析 阶 段 中 。 


语法 BS 中 间 代码 | 中 间 代 码 | 代码 
分 析 器 检查 器 生成 器 生成 器 


图 8-1 中 间 代 码 生成 器 的 位 置 
8.1 中 间 语 言 


5.2 节 与 2.3 节 介绍 的 语法 树 和 后 缀 表示 就 是 两 种 中 间 表 示 。 本 章 将 使 用 第 三 种 中 间 表 示 ， 
称 为 三 地 址 码 。 从 通用 的 编程 语言 结构 生成 三 地 址 码 的 语义 规则 与 构建 语法 树 及 生成 后 缀 表 
示 相 似 。 

8.1.1 图 表示 

语法 树 描述 了 源 程序 的 自然 层次 结构 。dag 以 更 紧凑 的 形式 给 出 了 相同 的 信息 ， 因 为 dag 中 

公共 子 表达 式 已 被 识别 出 来 。 赋 值 语句 a := b*-c + b*-c 的 语法 树 及 dag 如 图 8-2 所 示 。 


assign assign 

AON 

a + a + 
ON, C> 

一 * 
b uminus b uminus AON 

b uminus 
c c 

a) b) e 


图 8-2 a := b*-c + bx-c 的 图 表示 
a) 语法 树 b) Dag 


后 缀 表示 是 语法 树 的 线性 化 表示 ; 它 是 树 中 节点 的 列表 ， 每 个 节点 紧 跟 在 其 子 节点 后 面 出 
现 。 图 8-2a 中 的 语法 树 的 后 级 表示 为 


a b c uminus * b c uminus * + assign (8-1) 
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语法 树 中 的 边 不 会 显 式 地 出 现在 后 缀 表示 中 。 它 可 以 根据 节点 出 现 的 顺序 及 节点 上 的 操作 符 所 
要 求 的 操作 数 的 个 数 来 恢复 。 边 的 恢复 类 似 于 使 用 栈 对 后 缀 表示 形式 的 表达 式 求 值 。 详 见 2.8 
节 及 后 缀 表示 和 栈 式 机 器 代码 之 间 的 关系 。 
赋值 语句 的 语法 树 由 图 8-3 中 的 语法 制导 定义 生成 ; 它 是 对 5.2 节 中 相应 部 分 的 扩展 。 非 终 
结 符 S 生成 赋值 语句 。 两 个 二 元 操作 符 + 和 * 是 典型 语言 全 部 操作 符 集中 的 两 个 例子 。 操 作 
符 的 结合 性 及 优先 级 和 通常 的 一 样 ， 即 使 文法 中 没有 包括 也 如 此 。 该 定义 由 输入 a := b*-c 
+ bx-c 构建 了 图 8-2a 的 语法 树 。 





语义 规则 





E- CE, ) 
E ~id 


E.nptr : 
E.nptr : 


E | .nptr 
mkleaf (id, id.place) 


图 8-3 生成 赋值 语句 语法 树 的 语法 制导 定义 


S —>id := E | S.nptr := mknode(‘assign’, mkleaf (id, id place), E.nptr) 
E >E, + E, | E.nptr := mknode('+', E,.nptr, E .nptr) 

E => E, * E, | E.nptr := mknode('*', Ei.npir, Ey.nptr) 

E-- E, E.nptr := mkunode(‘uminus’, El.npir) 


nA mkunode(op, child ) 和 mknode (op, left, right) 尽 可 能 返回 指向 现存 节点 的 指针 ， 
语 不 是 构建 一 个 新 的 节点 的 话 ， 那 么 同样 的 语法 制导 定义 将 生成 如 图 8-2b 所 示 的 dag。 符 号 id 
有 一 个 属性 place 指 向 标识 符 在 符号 表 的 表 项 。 在 8.3 节 中 ， 我 们 说 明 如 何 通 过 属性 id.name 找 
到 符号 表 表 项 ， 它 表示 与 那个 id 的 出 现 相 关联 的 词素 (lexeme)。 如 果 词 法 分 析 器 用 单个 字符 
数组 中 保存 了 所 有 的 词素 ， 则 属性 nome 可 能 就 是 词素 的 第 一 个 字符 的 索引 。 

图 8-2a 中 语法 树 的 两 种 表示 如 图 8-4 所 示 。 每 个 节点 表示 为 一 个 记录 ， 记 录 中 有 一 个 域 表示 
操作 符 ， 一 个 附加 的 域 表示 指向 其 子 节点 的 指针 。 在 图 8-4b 中 ， 节 点 从 记录 数组 中 分 配 ， 并 且 
该 节点 的 位 置 或 索引 作为 指向 该 节点 的 指针 。 从 位 置 为 10 的 根 节点 开始 ， 沿 着 指针 可 以 访问 到 














语法 树 中 所 有 的 节点 。 
0 
I 
2 
3 
4 [一 
5 i c 
6 i 5 
7 | 
8 + 3 7 
9 
10 lassign 9 8 
i eee | | 
a) b) 
465 图 8-4 图 8-2a 中 语法 树 的 两 种 表示 
8.1.2 三 地 址 码 
三 地 址 码 是 下 列 一 般 形式 的 语句 序列 : 
x := y op z 


其 中 ，x，y 及 z 是 名 字 、 常 量 或 编译 器 生成 的 临时 变量 ; op 代表 任何 操作 符 ， 例 如 定点 或 者 浮 
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点 算术 操作 符 ， 或 者 是 布尔 型 变量 的 逻辑 操作 符 。 注 意 这 里 不 允许 组 合 的 算术 表达 式 ， 因 为 语 
名 右边 只 有 一 个 操作 符 。 这 样 , Rx y * z 这样 的 源 语 言 表 达 式 应 该 被 翻译 成 如 下 序列 : 

ti z yaz ` 

t2 := x + t, 
ti 与 te EREA ERR EE. CPS AR GER Bes SK AE E a a ES S eE 
码 适合 于 目标 代码 生成 及 优化 ( 见 第 10 章 及 第 12 章 )。 由 程序 计算 出 来 的 中 间 值 的 名 字 的 使 用 
使 得 三 地 址 码 容易 被 重 排 列 一 一 而 不 像 后 级 表示 那样 。 

三 地 址 码 是 语法 树 或 dag 的 线性 表示 ， 在 三 地 址 码 中 ， 显 式 名 字 对 应 于 图 的 一 个 内 节点 。 
图 8-2 中 的 语法 树 和 dag 由 图 8-5 中 的 三 地 址 码 序列 表示 。 变 量 名 字 可 以 直接 出 现在 三 地 址 语句 
中 ， 所 以 图 8-5a 中 没有 与 图 8-4 中 的 叶子 相对 应 的 语句 。 








:= 
:= 





图 8-5 与 图 8-2 中 的 树 和 dag 相对 应 的 三 地 址 码 
a) 语法 树 的 代码 b) dag 的 代码 


三 地 址 码 的 得 名 原因 是 每 条 语句 通常 包含 三 个 地 址 ， 两 个 是 操作 数 地 址 , 一 个 是 结果 地 址 。 
本 节 后 边 给 出 的 三 地 址 码 的 实现 中 ， 由 程序 员 定义 的 名 字 被 一 个 指向 该 名 字 的 符号 表 表 项 的 指 
针 所 代替 。 

8.1.3 三 地 址 语句 的 类 型 

三 地 址 语句 与 汇编 代码 类 似 。 语 句 可 以 有 符号 标号 ， 而 且 还 有 控制 流 语句 。 符 号 标号 表示 
三 地 址 语句 在 保存 中 间 代 码 的 数组 中 的 索引 。 通 过 一 遍 单 独 的 扫描 ， 或 使 用 8.6 节 中 讨论 的 
“回填 ”( backpatching )， 可 用 实际 的 索引 替换 符号 标号 。 

下 面 是 本 书后 面 使 用 的 通用 三 地 址 语句 : 

1. 形 如 x :=y opz 的 赋值 语句 ， 其 中 ，op 是 二 元 算术 操作 符 或 逻辑 操作 符 。 

2. 形 如 x := op y 的 赋值 指令 ， 其 中 op 是 一 元 操作 符 。 基 本 的 一 元 操作 符 包 括 一 元 减 、 
逻辑 非 、 移 位 操作 符 及 转换 操作 符 ， 例 如 ， 将 定点 数 转换 为 浮 点 数 。 

3. 形 如 x := y 的 复制 语句 ， 将 y KERS xo 

4. 无 条 件 跳 转 语句 goto LL。 接 下 来 将 执行 标号 为 的 三 地 址 语句 。 

5. 形 如 if x relopy goto L 的 条 件 跳 转 语句 。 这 条 指令 对 x Al y 应 用 逻辑 操作 符 ( <， 
=，>= 等 )， 如 果 x 与 y 满足 relop 关系 则 执行 带 有 标号 的 语句 。 如 果 不 满足 ， 紧 接着 执行 
if x relopy goto L 后 面 的 语句 ， 与 通常 的 顺序 一 样 。 

6. 过 程 调用 param x Ñl call p,n? K return y, H y 代表 一 个 返回 值 ， 是 可 选 的 。 
它们 的 典型 应 用 如 下 面 的 三 地 址 语句 序列 : 


param x, 
param x, 





O call pn 是 一 个 过 程 调用 ,“,” 分 割 调用 参数 。 一 一 译 者 注 


D 
人 


下 
x 
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param x, 
call p,n 


作为 过 程 p(x1, Xa, …, xn ) 的 一 部 分 生成 。 整 数 n 表 示 调 用 “call p, rz” 中 的 实际 参数 的 个 数 ， 
它 不 是 多 余 的 因为 调用 可 以 被 嵌 套 。 过 程 调用 的 实现 将 在 8.7 进 行 略 述 。 

7. 形 如 x :=y[i] 及 x[il :=y 的 被 变 址 的 赋值 语句 。 第 一 个 表达 式 将 x 的 值 设置 为 
地 址 y 之 后 第 i 个 内 存单 元 的 值 。 表 达 式 xli] := y 将 地 址 x 之 后 的 第 i 个 单元 的 值 设置 为 
y 的 值 。 在 这 两 条 指令 中 ，x，y 及 i 表示 数据 对 象 。 

8. 形 如 x:= gy, x := *y 及 *x := y 的 地 址 及 指针 赋值 语句 。 第 一 个 表达 式 将 x 的 值 设 
ER y 的 地 址 。 假 定 y 是 一 个 名 字 或 临时 变量 ， 表 示 一 个 具有 左 值 的 表达 式 ， 比 如 A [i,j]， 
x 是 一 个 指针 名 或 是 一 个 临时 变量 。 也 就 是 说 ，x 的 右 值 是 某 个 对 象 的 左 值 (地 址 ) 。 在 语句 
x := *y 中 ,假定 y 是 一 个 指针 或 是 一 个 右 值 是 地 址 的 临时 变量 。x 的 右 值 被 置 成 与 y 的 内 容 
相同 。 最 后 ，*x := y, 将 x 指向 的 对 象 的 右 值 置 成 y 的 右 值 。 

选择 允许 的 操作 符 是 设计 中 间 形 式 的 重要 问题 。 显 然 操 作 符 集合 必须 足够 用 来 实现 源 语言 
的 操作 。 小 操作 符 集合 在 新 的 目标 机 上 容易 实现 。 然 而 ， 受 限 的 指令 集 或 许 会 强制 前 端 为 某 些 
源 语 言 的 操作 生成 长 的 语句 序列 。 要 生成 优质 的 代码 ， 优 化 器 及 代码 生成 器 的 负担 会 更 大 。 
8.1.4 语法 制导 翻译 生成 三 地 址 码 

生成 三 地 址 码 以 后 ， 临 时 名 字 组 成 了 语法 树 的 内 节点 。E 一 El + E: 的 左 部 的 非 终结 符 E 的 
值 将 计算 到 一 个 新 的 临时 变量 中。 一 般 地 ，id := E 的 三 地 址 码 由 将 E 值 存 信 临时 变量 t 的 
代码 组 成 ， 后 边 紧 接着 赋值 id.place := 上。 如 果 表 达 式 是 一 个 标识 符 ， 比 如 说 y, M y 本 身 保 
存 该 表达 式 的 值 。 这 时 ， 每 次 需要 一 个 临时 变量 时 我 们 就 生成 一 个 新 的 名 字 。 临 时 变量 的 重用 
技术 将 在 8.3 节 给 出 。 

图 8-6 中 的 5 属性 定义 生成 赋值 语句 的 三 地 址 码 。 给 定 输入 a := b *- c+ bx*- c， 它 生成 
图 8-5a 的 代码 。 综 合 属 性 S.code 代表 赋值 $ 的 三 地 址 码 。 非 终结 符 E 具有 两 个 属性 : 

1. E.place ， 保 存 的 值 的 名 字 。 

2. Ecode， 计 算 EE 的 三 地 址 语句 序列 。 
连续 调用 函数 newtemp 返回 不 重复 的 名 字 序 列 ti, tao 


产生 式 语义 规则 
S-id :2 E S.code := E.code || gen(id.place ':=' E.place) 
E = E, + E, | E.place := newtemp; 
E.code := E,.code | E3.code | 
gen(E.place ':=' E,.place '+' E,.place) 
EE, * E, | E.place := newtemp; 
E.code := E,.code || E2.code || 
gen(E.place ':=' E,.place '*' E .place) 
E> - E, E.place := newtemp; 
E.code := E,.code || gen(E.place ':=' ‘uminus’ E,.place) 
E~(E, ) E.place := E,.place; 
E.code := E,.code 
E — id E.place := id.place; 
E.code := ” 





图 8-6 为 赋值 语句 产生 三 地 址 码 的 语法 制导 定义 
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为 方便 起 见 ， 我 们 在 图 8-6 中 使 用 符号 gen(x c= y '+' 2) 来 表示 三 地 值 语句 x := y + z。 当 被 传 
到 gen 中 时 ， 计 算 的 是 表达 式 ， 而 不 是 像 x，y，z 那样 的 变量 ,而 像 '+' 这 样 被 引号 括 起 来 的 操作 
符 或 操作 数 照 字 面 含义 接受 。 实 际 上 ， 三 地 值 码 可 能 被 送 到 输出 文件 中 ， 而 不 是 生成 code 属性 。 

通过 使 用 像 图 8-7 中 while 语句 一 样 的 产生 式 及 语义 规则 ， 可 以 将 控制 流 语句 加 入 到 图 8-6 中 
的 赋值 语言 中 。 在 图 8-7 中 ， 生 成 S 一 while E doS 的 代码 使 用 了 属性 S.begin Al S.after 来 分 别 标记 
E 的 代码 中 的 第 一 条 语句 及 紧 跟 在 S 的 代码 后 面 的 语句 。 这 些 属性 代表 由 函数 newlabel 生成 的 标 
号 ,每 次 调用 newlabel 都 返回 一 个 新 标号 。 注 意 ，S.aftier BA while 语句 代码 后 边 的 代码 的 标号 。 
我 们 假定 非 零 表达 式 表 示 真 ;也 就 是 说 ， 当 表达 式 EF 的 值 变 成 零 时 ， 控 制 将 离开 while 语句 。 


S.begin : 








if E.place = 0 goto S.after 





goto S.begin 
S.after : aa 


产生 式 语义 规则 
S 一 While E do S, S.begin := newlabel, 

S.after := newlabel, 

S.code := gen(S. begin ':' ) | 
E.code || 
gen(‘if' E.place '=''0' ‘goto’ S.after) || 
S,.code || 
gen(‘goto’ S.begin) || 
gen(S.after ':') 


图 8-7 为 while 语句 生成 代码 的 语义 规则 


支配 控制 流 的 表达 式 通 常 是 包含 关系 及 逻辑 操作 符 的 布尔 表达 式 。8.6 节 中 while 语句 的 语 
义 规则 与 图 8-7 中 的 有 所 不 同 ， 它 允许 布尔 表达 式 内 具有 控制 流 。 

后 缀 表示 可 以 通过 应 用 图 8-6 (或 参见 图 2-5 ) 中 的 语义 规则 获得 。 标 识 符 的 后 缀 表示 就 是 
标识 符 本 身 。 其 他 产生 式 的 规则 只 是 连接 在 操作 数 代码 后 边 的 操作 符 。 例 如 ， 产 生 式 E>-E 
的 语义 规则 为 ; 

E.code := Ei.code\|' uminus' 

一 般 来 说 ， 通 过 对 语义 规则 做 相似 的 修改 ， 本 章 中 语法 制导 翻译 产生 的 中 间 形 式 可 以 被 修改 。 
8.1.5 三 地 址 语句 的 实现 

三 地 址 语句 是 中 间 代 码 的 一 种 抽象 形式 。 在 编译 器 中 ， 这 些 语句 可 以 以 带 有 操作 符 和 操作 
数 域 的 记录 来 实现 。 四 元 式 、 三 元 式 及 间接 三 元 式 是 三 种 这 样 的 表示 。 
8.1.5.1 WARK 

四 元 式 是 带 有 四 个 域 的 记录 结构 ， 即 op, argl, arg2 及 result. op 域 包含 操作 符 的 内 码 。 
三 地 址 语句 x := y op z 通过 将 y 放 和 人 arg1，z BA arg2， 并 且 将 x 放 和 人 result 而 表示 为 四 元 
式 。 像 x := -y R x := y 这 样 的 一 元 操作 符 语句 不 使 用 are2. & param 这 样 的 操作 符 不 
使 用 arg2 及 result。 条 件 及 非 条 件 跳 转 语句 将 目标 标号 存 和 人 result 域 。 图 8-8a 是 赋值 语句 
a := b*-c + b*-c 的 四 元 式 。 它 们 是 从 图 8-5a 中 的 三 地 址 码 获 得 的 。 





图 8-8 三 地 址 语句 的 四 元 式 及 三 元 式 表示 
a) 四 元 式 b) 三 元 式 


argl, arg2 及 result 域 的 内 容 正 常情 况 下 是 指向 这 些 域 所 代表 的 名 字 在 符号 表 表 项 的 指针 。 
这 样 的 话 ， 临 时 名 字 在 生成 时 一 定 要 被 十 人 符号 表 。 
8.1.5.2 三 元 式 

为 了 避免 将 临时 名 字 填 人 符号 表 中 ， 我 们 可 以 通过 计算 临时 值 的 语句 的 位 置 来 引用 它 。 如 
果 这 样 做 ， 三 地 址 语句 就 可 以 用 只 包含 三 个 域 的 记录 表示 : op，arg1 及 arg2， 如 图 8-8b 所 示 。 
操作 符 op 的 操作 数 ， 即 域 arg1 和 arg2， 或 者 是 指向 符号 表 (对 于 程序 员 定 义 的 名 字 或 常量 ) 的 
指针 或 者 是 指向 三 元 式 结构 ( 对 于 临时 变量 ) 的 指针 。 由 于 使 用 了 三 个 域 ， 这 种 中 间 代 码 形式 
被 称 为 三 元 式 ? 。 除 了 对 程序 员 定义 的 名 字 的 处 理 之 外 ， 三 元 式 与 以 节点 数组 表示 的 语法 树 或 
dag 相 对 应 ， 如 图 8-4 所 示 。 

带 括 弧 的 数字 表示 指向 三 元 式 结构 的 指针 ， 而 符号 表 指针 由 名 字 本 身 代 表 。 实 际 上 ， 解 释 
argl 及 arg2 中 不 同 种 类 条 目 所 需要 的 信息 可 以 被 编码 到 op 域 或 一 些 附加 域 中 。 图 8-8b 的 三 元 
式 与 图 8-8a 的 四 元 式 相 对 应 。 注 意 ， 通 过 将 a BLA arg) 域 并 使 用 操作 符 assign 可 以 将 复制 
语句 a := ts 编码 为 三 元 式 表 示 。 

形 如 x [i] := y 这 样 的 三 元 算 符 在 三 元 式 结构 中 需要 两 个 表 项 ， 如 图 8-9a 所 示 ， 而 x := 
y[i] 自然 地 表示 为 图 8-9b 中 的 两 个 操作 。 


(0) {T= x i (0) =[] y i 
(1) | assign (0) y (1) | assign x (0) 
a) b) 


图 8-9 更 多 三 元 式 表示 
a) x[i] :=y b)x:=yl[il 
8.1.5.3 间接 三 元 式 
已 经 讨论 过 的 三 地 址 码 的 另外 一 个 实 
现 是 列 出 指向 三 元 式 的 指针 ， 而 不 是 列 出 
三 元 式 本 身 。 这 种 实现 方式 很 自然 的 被 称 
为 间接 三 元 式 。 
譬如 ， 让 我 们 用 数组 statement 按 要 
求 的 顺序 列 出 指向 三 元 式 的 指针 ， 那 么 图 
8-8b 的 三 元 式 可 以 表示 为 图 8-10。 


Statement 








图 8-10 三 地 址 语句 的 间接 三 元 式 表 示 


O 有 些 人 将 三 元 式 称 为 “二 地 址 码 ”， 而 将 “四 元 式 ” 称 为 “三 地 址 码 " 。 但 我 们 认为 “三 地 址 码 ” 是 一 个 抽 
象 概念 ， 可 以 有 不 同 的 实现 ， 主 要 是 三 元 式 和 四 元 式 。 
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8.1.6 表示 方法 比较 : 间 址 的 使 用 
三 元 式 与 四 元 式 的 差异 可 以 看 作 在 表示 中 引入 了 多 少 间 址 。 当 我 们 最 终生 成 目标 代码 时 ， 
每 个 名 字 ， 不 管 是 临时 变量 还 是 程序 员 定 义 的 变量 ， 都 将 被 分 配 一 些 运行 时 内 存 地 址 。 该 地 址 
将 被 保存 到 数据 所 在 的 符号 表 表 项 中 。 使 用 四 元 式 表 示 ， 定 义 或 使 用 临时 变量 的 三 地 址 语句 可 
通过 符号 表 直 接 访问 该 临时 变量 的 地 址 。 
使 用 四 元 式 的 一 个 更 重要 的 好 处 体现 在 优化 编译 器 中 ， 此 时 语句 经 常 被 移 来 移 去 。 使 用 四 
元 式 表 示 ， 符 号 表 在 值 的 计算 及 使 用 之 间 提 供 了 一 次 额外 间 址 。 如 果 我 们 移动 计算 x 的 语句 ， 
使 用 x 的 语句 不 需要 改变 。 然 而 ， 在 三 地 址 符号 中 ， 移 动 一 条 定义 临时 值 的 语句 需要 我 们 改变 
在 arg1 及 arg2 数 组 中 所 有 对 该 语句 的 引用 。 这 个 问题 使 得 三 元 式 很 难 用 在 编译 优化 中 。 
间接 三 元 式 没有 这 样 的 问题 。 可 以 通过 对 statement 列表 的 重新 排序 来 移动 语句 。 由 于 指 
向 临时 值 的 指针 查阅 op-argl-arg2 数组 ， 该 数组 不 变 ， 这 些 指 针 也 不 需要 改变 。 因 此 ， 就 其 效 
用 而 言 ， 间 接 三 元 式 看 上 去 与 四 元 式 非常 相似 。 两 种 表示 需要 大 约 相 同 的 存储 空间 ， 并 且 对 代 
码 重新 排序 的 效率 相同 。 对 于 普通 的 三 元 式 ， 必 须 将 对 那些 临时 变量 的 存储 分 配 推迟 到 代码 生 471 
成 阶段 。 然 而 ， 如 果 相 同 临时 值 的 使 用 超过 一 次 ， 则 间接 三 元 式 与 四 元 式 相 比 可 以 节省 空间 ， (472 
原因 是 在 语句 数组 中 的 两 条 或 多 条 可 以 指向 op-arg1-arg2 结构 的 同一 行 。 例 如 ， 可 以 将 图 8-10 
中 的 第 (14) 及 (16) 行 结合 ， 然 后 可 以 再 把 第 (15) 与 (17) 行 结合 。 


8.2 声明 语句 


当 过 程 或 程序 块 内 的 声明 序列 被 考查 之 后 , 我 们 可 以 为 局 部 于 该 过 程 的 名 字 分 配 存储 空间 。 
对 每 个 局 部 名 字 ， 我 们 都 将 在 符号 表 中 创建 一 个 表 项 ， 并 填写 类 型 及 名 字 的 相对 存储 地 址 等 相 
关 信 息 。 相 对 地 址 是 指 相对 于 静态 数据 区 基 址 或 活动 记录 中 局 部 数据 域 基 址 的 偏 移 量 。 

当前 端 生成 地 址 时 ， 或 许 已 经 知道 了 目标 机 。 假 定 在 字 节 寻 址 的 机 器 中 ， 连 续 整 数 的 地 址 
相差 4， 则 由 前 段 生 成 的 地 址 计算 或 许 就 要 乘 以 4。 目 标 机 的 指令 集 或 许 会 偏爱 数据 对 象 的 某 种 
布局 ， 这 也 导致 地 址 的 相同 布局 。 我 们 在 此 忽略 数据 对 象 的 对 齐 ; 例 7.3 说 明了 两 个 编译 器 如 
何 对 数据 对 象 进行 对 齐 。 

8.21 过 程 中 的 声明 语句 

像 C、Pascal 和 Fortran 这 样 的 语言 的 文法 允许 将 单个 过 程 中 所 有 的 声明 语句 作为 一 个 组 来 
处 理 。 在 这 种 情况 下 ， 一 个 全 局 变量 ， 璧 如 offset， 可 以 跟踪 下 一 个 可 用 的 相对 地 址 。 

在 图 8-11 的 翻译 模式 中 ， 非 终结 符 P 产生 一 系列 形 如 id:7 的 声明 语句 。 在 考虑 第 一 个 声明 
之 前 ， 将 offer 置 为 零 。 以 后 每 次 遇 到 一 个 新 的 名 字 ， 就 将 该 名 字 填 人 符号 表 ， 并 将 其 偏 移 置 
为 当前 的 offset 值 ， 然 后 将 该 名 字 所 代表 的 数据 对 象 的 宽度 加 到 offset 上 。 

过 程 enter ( name , type , offset) 为 名 字 建 立 符 号 表 表 项 ， 并 给 出 该 名 字 的 类 型 ype 及 其 在 
过 程 数据 区 中 的 相对 地 址 offset。 我 们 使 用 综合 属性 type 及 width 说 明 非 终结 符 了 的 类 型 及 宽 
BE, 或 该 类 型 的 对 象 所 占用 的 内 存单 元 数 。 属 性 type 表示 通过 应 用 类 型 构造 器 pointer 或 
array 从 基本 类 型 integer 及 real 构造 出 来 的 类 型 表达 式 ， 正 如 6.1 节 所 述 。 如 果 用 图 来 表示 类 
型 表达 式 ， 则 属性 ppe 可 能 是 指向 代表 一 个 类 型 表达 式 的 节点 的 指针 。 

在 图 8-11 中 ， 整 数 的 宽度 为 4 而 实数 为 8。 数 组 的 宽度 可 以 通过 将 数组 中 每 个 元 素 的 宽度 乘 
以 数组 中 元 素 的 个 数 获得 2 。 每 个 指针 的 宽度 假定 为 4。 在 Pascal 及 C 中 ， 指 针 可 能 在 我 们 知道 


O ”对 于 那些 下 界 不 是 0 的 数组 ， 如 果 添 人 符号 表 的 偏 址 按 8.3 节 中 讨论 的 调整 的 话 ， 数 组 元 素 的 地 址 计算 就 很 
简单 了 。 


P 
Re 
w 


A 
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其 所 指 对 象 的 类 型 之 前 过 到 ( 见 6.3 节 对 递归 类 型 的 讨论 )。 如 果 所 有 的 指针 有 具有 相同 的 宽度 ， 
对 该 类 型 的 存储 分 配 将 变 得 更 简单 。 


P = { offset := 0} 
D 


D-~D;D 

D- id: T { enter (id. name, T.type, offset); 
offset := offset + T.width } 

T — integer { T.type := integer, 
T.width := 4} 

T — real { T.type := real; 
T.width := 8 } 


T > array [ num ] of T, { T.type := array(num.val, T ,.type): 
T.width := num.val xT, .width } 


T- TT, { T.type := pointer (T,.type); 
T.width := 4} 





图 8-11 计算 声明 语句 中 名 字 的 类 型 和 相对 地 址 

在 图 8-11 的 翻译 模式 中 ， 如 果 某 一 行 中 第 一 个 产生 式 形式 如 下 ， 则 offset 的 初始 化 将 变 得 
更 明显 ， 

P ~{ offset := 0} D (8-2) 
非 终 结 符 产 生 的 e ，5.6 节 称 为 的 标记 非 终结 符 ， 可 以 被 用 来 重 写 上 述 产生 式 以 便 所 有 的 动作 都 
出 现在 产生 式 右 部 的 末 端 。 使 用 标记 非 终结 符 M， 式 (8-2) 可 被 重 写 为 

P-MD 

M-e« { offset := 0} 

8.2.2 跟踪 作用 域 信 息 

在 允许 谋 套 过 程 的 语言 中 ,局 部 于 每 个 过 程 的 名 字 可 以 使 用 图 8-11 中 的 方法 分 配 相对 地 址 。 
当 看 到 绑 套 的 过 程 时 ， 应 暂时 挂 起 对 外 围 过 程 声明 语句 的 处 理 。 这 种 方法 可 以 通过 为 如 下 语言 
增加 语义 规则 来 说 明 。 

P-D 

D~D;D | id:T | proeid;D; 5S (8-3) 
产生 语句 的 非 终结 符 $8 及 产生 类 型 的 非 终结 符 T 的 产生 式 没有 说 明 ， 因 为 我 们 考虑 的 是 声明 。 
非 终结 符 了 具有 综合 属性 type 及 widrh， 同 图 8-11 中 的 翻译 模式 相同 。 

为 简单 起 见 ， 假 定语 言 (8-3) 中 每 个 过 程 有 一 张 单独 的 符号 表 。 符 号 表 的 一 个 可 能 的 实现 是 
名 字 表 项 的 一 个 链表 。 如 果 和 需要 可 用 更 聪明 点 的 实现 方法 。 

当 过 到 过 程 声明 D->proc id Di; 5 时 便 创建 一 张 新 的 符号 表 ， 并 在 此 符号 表 中 为 D 中 的 
声明 创建 相应 的 表 项 。 新 表 有 一 个 指针 指 回 外 围 过 程 的 符号 表 ; 由 id 代表 的 名 字 本 身 是 该 外 
围 过 程 的 局 部 名 字 。 与 图 8-11 的 变量 声明 处 理 方式 惟一 不 同 的 是 要 告诉 过 程 enter 在 哪个 符号 
表 中 添加 表 项 。 

例如 ， 图 8-12 给 出 了 五 个 过 程 的 符号 表 。 过 程 的 嵌 套 结构 可 以 从 符号 表 之 间 的 连接 推导 出 
来 ; 程序 见 图 7-22。 过 程 readarray, exchange 及 quicksort 的 符号 表 指 向 其 包含 过 程 
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sort 的 符号 表 ，sort 由 整个 程序 组 成 。 由 于 partition 在 quicksort 中 声明 ， 它 的 符 
号 表 指 向 quicksort 的 符号 表 。 


[nil | header] 








to readarray 





readarray 
exchange 


to exchange 


readarray exchange 





quicksort 


图 8-12 HREM S E 


语义 规则 是 利用 以 下 操作 定义 的 : 

1. mktable (previous) 创建 一 张 新 的 符号 表 ， 并 返回 指向 新 表 的 指针 。 参 数 previous 指向 先 
前 创建 的 符号 表 ， 可 以 推测 ， 是 外 图 进程 的 符号 表 。 指 针 previous 放 在 新 符号 表 的 表 头 ， 表 头 
中 还 可 以 放 一 些 其 他 信息 ， 如 过 程 的 伐 套 深度 。 我 们 也 可 以 按 过 程 声明 的 顺序 为 其 编号 ， 并 将 
编号 保存 在 表 头 中 。 

2. enter (table, name, type, offset) 在 table 指向 的 符号 表 中 为 名 字 name 建立 新 表 项 。 同 
AY, enter 将 类 型 bpe 及 相对 地 址 ofset 放 和 人 该 表 项 的 域 中 。 

3. addwidth (table, width)# table 指向 的 符号 表 中 所 有 表 项 的 宽度 和 记录 在 与 符号 表 关 联 的 
表 头 中 。 

4. enterproc (table, name, newtable) 在 table 指向 的 符号 表 中 为 过 程 name 建立 一 个 新 表 项 。 
参数 newtable 指向 过 程 name 的 符号 表 。 

通过 使 用 栈 tblptr 保存 指向 外 围 过 程 符号 表 的 指针 ， 锅 8-13 的 翻译 模式 说 明了 一 遍 扫描 如 
何 布局 数据 。 对 于 图 8-12 的 符号 表 ， 当 考虑 partition 中 的 声明 语句 时 ，tblptr 将 包含 指向 
sort, quicksort 及 partition 的 符号 表 的 指针 。 指 向 当前 符号 表 的 指针 在 栈 顶 。 另 一 个 
栈 offset 是 对 图 8-11 中 属性 offset KETTER HARRIE. offset 的 栈 顶 元 素 是 下 一 个 当 
前 过 程 中 局 部 对 象 可 用 的 相对 地 址 。 

产生 式 中 最 后 的 动作 action 开始 之 前 ， 下 面 产生 式 的 子 树 BA C 中 的 所 有 语义 动作 都 已 
经 结束 : 

A->BC {actiona} 


人 因此， 在 图 8-13 中 与 标志 M 关联 的 动作 首先 被 完成 。 
非 终结 符 M 的 动作 用 最 外 层 作用 域 的 符号 表 初 始 化 栈 tblptr， 该 符号 表 由 mktable(nil) 操 
作 创建 。 该 动作 还 将 相对 地 址 0 压 人 栈 offset。 当 出 现 一 个 过 程 声明 时 ， 非 终结 符 N 扮演 相同 
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的 角色 。 其 动作 使 用 mktable(top(tbiptr)) 操作 来 创建 一 个 新 的 符号 表 。 此 时 ， 参 数 top(tbiptr) 


给 出 了 该 新 表 的 外 国 作 用 域 。 指 向 新 表 的 指针 被 压 人 到 栈 中 指向 该 外 围 作 用 域 的 指针 的 上 面 。 
同样 ，0 被 压 人 栈 offset. 





{ addwidth (top (tblptr), top (offset); 
pop (thlptr); pop (offset) } 
{ ¢ := mktable (nil); 
push(t, tbiptry, push (QO, offset) } 
D = D, ; D; 


D > procid; ND, ; S { ¢:= top(tbiptry, 


addwidth (t, top (offset)); 
pop (tblptr), pop (offset); 
enterproc (top (tbiptr), id.name, t) } 


{ enter (top (thiptr), id.name, T.type, top Coffser)); 
top (offset) := top (offser) + T. width } 


{ t := mktable (top (tbiptr)); 
push(t, tbiptr); push(0, offset) } 


图 8-13 处 理 髓 套 过 程 中 的 声明 语句 
对 于 每 个 变量 声明 ia:7， 在 当前 符号 表 中 建立 该 id 的 表 项 。 这 个 声明 不 改变 栈 tblptr,， 但 
offset 的 栈 顶 指针 增加 工 width。 当 产生 式 D-proc id; N Di; S 右边 的 动作 执行 时 ， 由 Di 产 
生 的 所 有 声明 出 现在 offset 的 栈 顶 ; 它 使 用 过 程 addwidth 来 记录 。 然 后 ， 弹 出 楼 tblptr 及 
offset 的 栈 顶 元 素 ， 下 面 我 们 转 回 到 外 围 过 程 中 继续 处 理 其 中 的 声明 。 此 时 将 被 包含 过 程 的 名 
字 添 入 外 围 过 程 的 符号 表 中 。 
8.2.3 记录 中 的 域名 


下 面 的 产生 式 允 许 非 终结 符 了 除 产生 基本 类 型 、 指 针 和 数组 之 外 ， 还 生成 记录 : 
T ~ record D end 
图 8-14 中 翻译 模式 的 动作 中 强调 作为 语言 结构 的 记录 的 布局 与 活动 记录 之 间 的 相似 性 。 由 于 在 


图 8-13 中 过 程 定义 并 不 影响 宽度 计算 ， 上 面 的 产生 式 也 人 允许 过 程 定义 出 现在 记录 中 ， 不 过 我 们 
忽略 这 种 情况 。 





T ~ record L D end { T.type := record (top (tblptr)), 
T.width := top (offset); 
pop (tbiptr);_ pop (offset) } 


{ t := mktable (nil); 
push (t, tbiptr); push(O, offset) } 





图 8-14 为 记录 中 的 域名 建立 符号 表 


当 看 到 关键 字 record 之 后 ， 与 标记 Z 关 联 的 动作 为 域名 创建 一 个 新 的 符号 表 。 指 向 该 符号 
表 的 指针 被 压 人 栈 tblptr 且 相 对 地 址 0 被 压 人 栈 offret。 因 此 图 8-13 中 产生 式 D>id:T 的 动作 是 
将 域名 id 的 信息 填 入 到 该 记录 的 符号 表 中 。 进 而 ， 当 记录 的 所 有 域 都 被 检查 过 之 后 ，offset 的 
栈 顶 将 保存 记录 中 所 有 数据 对 象 的 宽度 。 在 图 8-14 中 end 之 后 的 动作 将 该 宽度 作为 综合 属性 
Twidth 返回 。 类 型 Ttype 通过 将 构造 器 record 应 用 于 指向 该 记录 符号 表 的 指针 获得 。 该 指针 
将 在 下 一 节 被 用 来 恢复 记录 中 的 域名 、 类 型 及 域 宽 等 。 
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8.3 赋值 语句 


在 本 节 中 ， 表 达 式 的 类 型 可 以 是 整 型 、 实 型 、 数 组 及 记录 。 作 为 将 赋值 语句 转换 为 三 地 址 
码 的 一 部 分 ,我 们 将 说 明 如 何在 符号 表 中 查找 名 字 以 及 如 何 存 取 数 组 及 记录 中 的 元 素 。 
8.3.1 符号 表 中 的 名 字 

在 8.1 节 ， 我 们 使 用 名 字 本 身 形成 三 地 址 语句 ， 条 件 是 名 字 代 表 指 向 其 符号 表 表 项 的 指针 。 
图 8-15 的 翻译 模式 说 明了 如 何 找到 这 些 符号 表 的 表 项 。 由 id 表示 的 名 字 的 词素 由 属性 id.name 
给 出 。 操 作 lookup(id.name) 检查 符号 表 中 是 否 出 现 该 名 字 的 表 项 。 如 果 有 ， 返 回 指向 该 表 项 
的 指针 ， 否 则 ，lookup 返回 nil， 表 示 没 有 找到 这 样 的 表 项 。 

图 8-15 中 的 语义 动作 使 用 过 程 emit 来 将 三 地 址 语句 输出 到 输出 文件 中 ， 而 不 是 如 图 8-6 那 
样 为 非 终结 符 建 立 code 属性 。 从 2.3 节 起 ， 翻 译 可 以 通过 向 输出 文件 发 送 三 地 址 语句 来 实现 ， 
只 要 产生 式 左 部 非 终结 符 的 code 属性 是 由 产生 式 右 部 非 终结 符 的 code 属性 按 其 出 现 顺 序 连接 
而 成 ， 当 然 非 终结 符 之 间 也 许 附加 一 些 字符 串 。 

通过 重新 解释 图 8-15 中 的 lookup 操作 ， 即 使 像 Pascal 语言 那样 将 最 接近 艇 套 作用 域 规则 


应 用 于 非 局 部 名 字 ， 亦 可 采用 该 翻译 模式 。 更 具体 地 讲 ， 假 设 赋 值 语句 出 现 的 上 下 文 由 下 列 文 
给 定 : 


P> MD 
M >e 
D~D;D | id:T | pocid; ND; S 
AN 一 上 
将 这 些 产生 式 加 到 图 8-15 中 的 那些 产生 式 上 ， 非 终结 符 P 就 成 为 新 的 开始 符号 。 478 


{ p := lookup (id. name); 
if p # nil then 
emit(p ':=' E.place) 
else error } 


{ E.place := newtemp; 
emit(E.place ':=' E,.place '+ E,.place) } 


{ E.place := newtemp; 

emit(E.place ':=' E,.place '*' E,.place) } 
{ E.place := newtemp, 

emit(E.place ':=' ‘uminus’ E,.place) } 
{ E.place := E,.place } 
{ p := lookup (id.name), 

if p # nil then 

E.place := p 
else error } 





图 8-15 为 赋值 语句 产生 三 地 址 码 的 翻译 模式 


对 于 该 文法 产生 的 每 个 过 程 ， 图 8-13 的 翻译 模式 为 它们 建立 单独 的 符号 表 。 每 个 这 样 的 符 
号 表 都 有 一 个 表 头 ， 其 中 包含 一 个 指向 外 围 过 程 符号 表 的 指针 ( 见 图 8-12 的 例子 )。 当 检查 形 
成 过 程 体 的 语句 时 ， 一 个 指向 该 过 程 的 符号 表 的 指针 出 现在 栈 tblptr 的 顶部 。 这 个 指针 是 由 与 
D—proc id ; N D, ; S 右 部 的 标记 非 终结 符 N 关联 的 动作 压 人 栈 中 的 。 


A 
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令 非 终结 符 S 的 产生 式 是 图 8-15 中 的 那些 产生 式 。 由 5 产生 的 赋值 语句 中 的 名 字 必 须 在 $ 
所 在 的 过 程 中 已 经 被 声明 或 者 在 某 个 外 围 过 程 中 已 被 声明 。 当 作用 于 name 时 ， 修改 后 的 
lookup 操作 首先 检查 name 是 否 出 现在 当前 符号 表 中 ， 通 过 top(ebiptrr) 即 可 访问 。 如 果 不 是 ， 
lookup 使 用 符号 表 表 头 中 的 指针 来 查找 外 围 过 程 的 符号 表 ， 看 名 字 是 否 在 那里 。 如 果 在 所 有 这 
样 的 作用 域 中 都 找 不 到 该 名 字 ， 那 么 lookup 返回 nil, 

例如 ， 假 定 符号 表 如 图 8-12 所 示 ， 并 且 过 程 partition 中 的 一 个 赋值 语句 正 被 检查 。 操 
作 lookup(i) 会 在 partition 的 符号 表 中 找到 一 个 表 项 。 由 于 v 不 在 该 符号 表 中 lookup) 
将 用 该 符号 表 表 头 中 的 指针 继续 查找 外 围 过 程 quicksort 的 符号 表 。 
8.3.2 临时 名 字 的 重用 

我 们 一 直 沿 用 这 样 的 假定 : 每 当 需 要 时 ，newtemp 就 产生 一 个 新 的 临时 名 字 。 每 次 调用 
newiemp 产生 一 个 单独 的 名 字 是 有 用 的 ， 在 优化 编译 器 中 尤其 如 此 ， 第 10 章 将 会 确认 这 样 做 合 
理 。 但 是 ， 表 达 式 计算 中 保存 临时 值 的 临时 名 字 趋 向 于 使 符号 表 散 乱 ， 并 且 为 保存 它们 的 值 不 
得 不 分 配 空间 。 

修改 newtemp 过 程 可 以 重用 临时 名 字 。 另 外 一 种 方法 是 在 代码 生成 阶段 将 独立 的 临时 变量 
封装 到 同一 个 地 址 ， 这 将 在 下 一 章 进 行 讨论 。 

在 表达 式 的 语法 制导 翻译 期 间 ， 像 图 8-15 那 样 的 规则 会 产生 大 量 的 临时 名 字 来 表示 数据 。 
由 ESE +E: 的 规则 产生 的 代码 的 一 般 形式 为 : 

WHAE, HARPE t 

HRE, HARRE t 

t := ty + 七 2 


从 综合 属性 Eplace 的 规则 可 以 看 出 ,不 是 在 程序 的 任何 地 方 都 用 到 t， 和 tz。 这 些 临 时 变量 
HAART OREM SRR RE. 事实 上 ,计算 EE 时 用 的 所 有 临时 变量 的 生存 期 都 包含 在 
t! 的 生存 期 里 。 因 此 有 可 能 修改 newtemp， 使 得 它 在 过 程 的 数据 区 域 中 使 用 一 个 小 数组 来 保存 
临时 名 字 ， 好 像 它 是 栈 一 样 。 

为 简单 起 见 ， 假 定 我 们 只 处 理 整 数 。 使 用 一 个 计数 器 c， 它 的 初 值 为 0。 每 当 临时 名 字 作 
为 运算 对 象 使 用 时 ，e 减 去 1; 每 当 要 求 产生 新 的 临时 名 字 时 ， 使 用 $c 并 把 c 增加 1。 注 意 ， 
该 临时 名 字 的 “ 栈 ” 在 运行 时 并 没有 入 栈 和 出 栈 操作 ， 虽 然 编译 器 可 能 碰巧 在 “ 栈 顶 ” 存 取 临 
时 变量 的 值 。 


例 8.1 考虑 赋值 语句 


x:= a#b+c#d-exwxf 


图 8-16 给 出 了 如 果 newtemp 修改 后 的 三 地 址 语 
名 序列 ， 它 们 原由 图 8-15 的 语义 规则 产生 。 该 
表 还 包含 每 个 语句 生成 后 c 的 “当前 ” 值 的 指 
示 。 例 如 ， 计算 $0-$1 时 ，c 的 值 减 少 到 0， 所 
以 $0 又 可 用 来 保存 结果 。 口 图 8-16 带 有 栈 式 临时 变量 的 三 地 址 码 

对 临时 名 字 进 行 赋值 和 (或 ) 使 用 可 能 不 止 一 次 ， 例 如 条 件 赋 值 语句 中 ， 临 时 名 字 不 能 以 


上 述 的 后 进 先 出 方式 指派 名 字 。 由 于 它们 很 少 出 现 ， 所 以 可 为 所 有 这 样 的 临时 值 单独 指派 自己 
的 名 字 。 当 执行 代码 优化 时 ， 例 如 合并 公共 子 表达 式 或 将 计算 移出 循环 时 〈 见 第 10 章 )， 临 时 
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变量 定义 或 使 用 多 次 的 问题 也 会 出 现 。 一 种 合理 的 策略 是 每 当 创建 一 个 额外 的 定义 或 使 用 一 个 
临时 名 字 或 移动 其 计算 时 ， 均 创建 一 个 新 的 名 字 。 
8.3.3 寻 址 数组 元 素 

如 果 元 素 存 放 在 连续 的 存储 块 中 ， 数 组 元 素 就 可 以 迅速 地 被 访问 。 如 果 每 个 数组 元 素 的 宽 
度 是 w， 那 么 数组 A 的 第 i 个 元 素 的 开始 地 址 为 : 

base + (i — low) X w (8-4) 
Ep, low 是 下 标的 下 界 ，base 是 分 配给 数组 的 存储 空间 的 相对 地 址 ， 即 base 是 Allow] 的 相 
对 地 址 。 

如 果 把 表达 式 (8-4) 重 写成 


ixw + (base — low x w) 


那么 在 编译 时 可 以 完成 它 的 部 分 计算 。 子 表达 式 c = base - low xw 可 以 在 看 到 数组 声明 时 
HWE. BE c 保存 在 A 的 符号 表 表 项 中 ， 则 Ali] 的 相对 地 址 可 以 通过 简单 地 将 ixw 加 入 c 
来 获得 。 

编译 时 的 预计 算 还 可 以 应 用 在 多 维 数组 元 素 的 地 址 计算 上 。 二 维 数 组 形式 上 可 以 用 两 种 形 
式 之 一 来 保存 ,或 者 行 优先 (一 行 接 一 行 )， 或 者 列 优 先 ( 一 列 接 一 列 )。 图 8-17 给 出 了 一 个 
2 x 3 数组 的 (a) 行 优先 形式 和 ({b) 列 优先 形式 。Fortran 使 用 列 优先 形式 ，Pascal 使 用 行 优 先 形式 ， 
因为 A[i,j] 等 价 于 A[i][j]， 而 且 每 个 数组 A[i] 的 元 素 都 是 连续 存放 的 。 





y 
T 第 一 列 
第 一 行 + 
+ 第 二 列 
第 二 行 + 
第 三 列 

4 + 


图 8-17 二 维 数据 的 布局 
a) 行 优先 b) 列 优先 
如 果 二 维 数组 采用 行 优先 形式 存储 ， 可 用 如 下 公式 计算 A [i i | 的 相对 地 址 : 


base + ((i; — lowi) X nz + i. ~ low.) X w 


FL, low, 和 low; 分 别 是 i, h TA, m 是 h 可 取 值 的 个 数 。 也 就 是 说 ， 如 果 high 是 h 
WEA, ABA m= highs-low;+ 1。 假定 h, is 是 编译 时 惟一 尚未 知道 的 值 ， 我 们 可 以 把 上 述 
表达 式 重 写成 : 


((ij Xn2) + in) X w + (base — ((low, X n3) + low) X w) 


该 表达 式 的 后 一 项 可 以 在 编译 时 确定 。 

我 们 可 以 将 行 优先 或 列 优先 的 形式 推广 到 多 维 数组 。 行 优先 形式 的 推广 以 如 下 方式 存储 元 
R: 当 向 下 扫描 存储 块 时 ， 最 右边 的 下 标 变 化 最 快 ， 就 像 计 程 仪 显 示 数 字 那 样 。 表 达 式 (8-5) 可 
推广 成 如 下 表达 式 以 计算 A Cis, i,…, ie] 的 相对 地 址 : 


(8-5) 
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CC (natina tig) ti X Ww 
+ base — (( + ((lowyn,+low2)n3+low3) > +: )ngtlowg) X w (8-6) 

因为 对 任何 j，nj =high -low +1 是 固定 的 ，(8-6) 中 的 第 二 行 的 项 可 以 由 编译 器 计算 出 来 ， 并 存 
放 到 符号 表 中 A 的 表 项 里 ?。 列 优先 形式 则 推广 到 相反 的 布局 ， 最 左边 的 下 标 变化 最 快 。 

进行 过 程 调用 时 ， 某 些 语言 允许 数组 的 大 小 在 运行 时 刻 动 态 确定 。 这 种 在 运行 时 栈 上 的 数 
组 分 配 已 在 7.3 节 讨论 过 了 。 其 元 素 的 访问 公式 和 固定 大 小 的 数组 相同 ， 但 上 、 下 界 在 编译 时 
是 未 知 的 。 

为 数组 引用 产生 代码 的 主要 问题 是 将 式 (8-6) 的 计算 与 数组 引用 的 文法 联系 起 来 。 如 果 非 终 
结 符 工 允许 带 有 如 下 产生 式 ， 则 赋值 语句 中 允许 有 数组 引用 ， 其 中 id 出 现在 图 8-15 中 。 


L ~ id { Elist ] | id 
Elist + Elist , E | E 


为 了 使 数组 各 维 的 长 度 nw 在 我 们 将 下 标 表达 式 合并 到 Elist 时 是 可 用 的 ， 需 将 产生 式 重 写 为 : 


L > Elist } | id 

Elist + Elist , E | id CE 
即 把 数组 名 与 最 左边 的 下 标 表 达 式 连 在 一 起 ， 而 不 是 在 形成 工时 同 Elise 并 在 一 起 。 这 些 产生 
式 人 允许 将 符号 表 中 指向 数组 名 表 项 的 指针 作为 Elist 的 综合 属性 array 进行 传递 。® 

我 们 还 使 用 Elistndim 来 记录 Elist PHARM (PRIA). PR limit(array, j ) 返 回 nj ， 
即 由 array 指向 其 符号 表 表 项 的 数组 的 第 j 维 的 元 素 个 数 。 最 后 ，Elist.place 表示 临时 名 字 ， 
该 名 字 保 存根 据 Elist 的 下 标 表 达 式 计算 出 来 的 值 。 

产生 上 维 数组 引用 ALi, i, …, 认 ] 的 前 m 个 下 标的 Elise 生成 三 地 址 码 来 计算 下 式 ， 


(> (iini tin tiz) nn Min + in (8-7) 
它 使 用 的 是 下 列 递归 公式 : 

el = iy 

em = Cm-1 X Nm + in (8-8) 


于 是 ， 当 m = 大 时 ， 计 算出 式 (8-6) 第 一 行 的 子 项 只 需要 乘 以 宽度 w RTT. REH j AER 
是 表达 式 的 值 ， 用 来 计算 这 些 表 达 式 的 代码 将 散布 在 计算 式 (8-7) 的 代码 之 中 。 

左 值 L 有 两 个 属性 ，L.place 和 .offset。 当 工 是 简单 名 字 时 ，L.place 是 指向 符号 表 中 该 名 
字 表 项 的 指针 ， 而 Loffser 是 nmll， 表 示 该 左 值 是 一 个 简单 名 字 ， 而 不 是 数组 引用 。 非 终结 符 
EX} E.place 的 翻译 与 此 相同 ， 与 在 图 8-15 中 的 含义 相同 。 
8.3.4 数组 元 素 寻 址 的 翻译 模式 

我 们 将 把 语义 动作 加 到 下 面 的 文法 上 : 


(t) S~>L:sE 
(2) E> E+E 


O 在 C 语 言 中 ， 多 维 数组 是 通过 定义 其 元 素 也 是 数组 的 数组 来 模拟 的 。 例 如 ， 假 设 x 是 一 个 整数 数组 的 数组 。 
那么 ， 该 语言 既 允 许 x[i1 又 允许 x 1il {j] 这 样 的 表达 式 ， 而 且 它 们 的 宽度 不 同 。 但 是 ， 所 有 数组 的 下 界 
均 为 0， 所 以 (8-6) 的 第 二 行 的 项 在 每 一 种 情况 下 都 简化 为 hbase。 

O 该 变换 同 5.6 节 末尾 提 到 的 消除 继承 属性 的 变换 类 似 。 在 此 ， 我 们 也 可 以 解决 继承 属性 的 问题 。 
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(3) E> (E) 
(4) E>L 
(5) L > Elist | 
(6) L > id 


(7) Elist > Elist , E 
(8) Elist ~ id [ E 
与 在 没有 数组 引用 的 表达 式 中 一 样 ， 三 地 址 码 由 在 语义 动作 中 调用 的 过 程 emi 米 产生 。 

如 果 工 是 简单 名 字 ， 则 生成 一 般 的 赋值 ， 否 则 生成 对 上 所 指示 位 置 的 索引 赋值 : 
(1) S>L:=E {让 L.offset = null then /* 工 是 简单 id */ 

emit(L.place ':=' E.place), 

else 
emit(L.place’[l'L.offset’]’' ':=' E.place) } 


算术 表达 式 的 代码 和 图 8-15 中 的 完全 一 样 ; 


(2) E>E,+E, { E.place := newtemp; 
emit (E.place ':=' E,.place '+' E.place) } 


G) E> (E) { E.place := Ei.place } 


如 果 数 组 引用 工 归 约 为 E, WERE LY. ARR 5 EME L place[L offset) 
内 容 : 


(4) EOL { if L.offset = null then /* 工 是 简单 id */ 
E.place := L.place 
else begin 


E.place := newtemp, 
emit(E.place ':=' L.place'['L.offset’}') 
end } 


Fit, Loffser 是 一 个 新 的 临时 变量 ， 表 示 式 (8-6) 中 的 第 一 项 ; BR width(Elist.array) 返回 式 
(8-6) 中 的 w。L.place 表示 式 (8-6) 中 的 第 二 项 ， 由 函数 c(Elist.array) 返 回 。 


(5) L > Elist ] { L.place := newtemp; 
L.offset := newtemp; 
emit (L.place ':=' c(Elist.array)); 


emit (L.offset ' : =' Elist.place '*' width(Elist.array)) } 


室 的 offset 表示 简单 名 字 。 


(6) L ~ id { L.place := id.place; 
L.offset := null } 


当 看 到 下 一 个 下 标 表 达 式 时 ， 应 用 递归 公式 (8-8)。 在 下 面 的 动作 中 ，Elisti.place 对 应 式 (8-8) 中 的 
em1，Elist.place 对 应 emo TER, WE Elist 有 m-1 个 分 量 ， 则 产生 式 左 部 的 Elist 有 m 个 分 量 : 


(7) Elist > Et ,E  { t := newtemp, 
m := Elist,.ndim + 1, 
emit(t':=' Elist, place '*' limit (Elist,.array, m )); 
emit{t := t '+' E.place); 
Elist.array := Elist,.array, 
Elist.place := t, 
Elist.ndim := m } 


E.place 不 仪 保存 表达 式 E 的 值 ， 还 保存 当 m = 1 时 式 (8-7) 的 值 。 


> 
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(8) Elist > id { E { Elist.array := id.place; 
Elist.place := E.place; 
Elist.ndim := 1 } 


例 8.2 设 和 A 是 一 个 10 x20 的 数组 ，low;= low2=1， 因 此 m= 10, n2=20。 取 w=4。 赋 值 
语句 x := Aiy,z] 的 注释 分 析 树 如 图 8-18 所 示 。 该 赋值 语句 被 翻译 成 下 列 三 地 址 语句 序列 : 


tl := y * 20 
tl ist; + z 
tz := € /* FH c = base, — 84 */ 
t3 = 4 x ti 
ta := ty[t 3] 
x := t; 
对 于 每 个 变量 ， 我 们 已 用 它 的 名 字 代 蔡 了 id.place。 o 
A 
L.place = x 1 E.place = t4 
L.offset = null 
L.place = t, 
x L.offset = t, 
Elist.place < ] 
Elist.ndim = 2 
Elist.array = A 
Elist.place = y | E.place = z 
Elist.ndim = 1 | 
Elist.array = A L.place = z 
L.offset = null 
[ E.place = y 
z 
L.place = y 


L.offset = mull 


y 
图 8-18 x ;=Al[ly,z] 的 注释 分 析 树 
8.3.5 赋值 语句 中 的 类 型 转换 
实际 上 ， 变 量 和 常量 有 许多 种 不 同 的 类 型 ， 因 而 编译 器 或 者 拒绝 某 种 混合 类 型 的 操作 ， 或 
者 生成 适当 的 强制 〈 类 型 转换 ) 指令 。 
考虑 上 述 赋值 语句 的 文法 , 假定 有 两 种 类 型 一 一 整 型 和 实 型 ， 必 要 时 整 型 可 以 转换 为 实 型 。 


我 们 引入 另 一 个 属性 E.type， 它 的 值 是 real 或 integer。 与 产生 式 EE+E 相 关联 的 E.type 的 语义 
规则 为 : 


E~E+E { Etype := 
if E,.type = integer and 
E>.type = integer then integer 
else real } 


该 规则 符合 6.4 节 提出 的 精神 。 这 里 以 及 本 章 的 其 余部 分 ， 我 们 将 忽略 类 型 错误 的 检查 ， 这 个 
问题 已 在 第 6 章 讨 论 过 了 。 


Pi] AG E R 


必须 修改 EOE + E 和 大 多 数 其 他 
产生 式 的 语义 规则 以 便 必要 时 生成 x := 
inttorealy 格 式 的 三 地 址 语句 ， 它 的 
作用 是 把 整数 y 转换 成 等 值 的 实数 ， 
称 为 x。 我 们 还 必须 在 操作 符 的 代码 中 
包含 一 个 标记 ， 指 示 这 是 定点 算术 运算 
还 是 浮 点 算术 运算 。 产 生 式 EE, + Ep 
的 完整 语义 动作 列 在 图 8-19 中 。 

例如 ， 对 于 输入 x := y + ix*j， 假 
定 x 和 y 的 类 型 是 real, i 和 j 的 类 型 是 
integer, Ht Hei: 





tl := i inte j 

t := inttoreal 七 | 

t: := y realt ta 

x ;= te 

图 8-19 的 语义 动作 使 用 了 非 终 绪 符 
五 的 两 个 属性 E.place 和 Etype。 由 于 需 
要 转换 的 类 型 数 增加 ， 随 之 而 来 的 情况 
将 成 二 次 方 增加 ( 如 果 有 多 于 两 个 变 元 
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E.place := newtemp, 

if E,.type = integer and E,.type = integer then begin 
emit(E.place ':=' E,. place 'int +’ Ex.place); 
E.type := integer 

end 

else if E,.type = real and E,.type = real then begin 


emit(E.place ':=' E,.place ‘real+' E, place); 
E.type := real 

end 

else if E, .rype = integer and E,.type = real then begin 
u := newtemp; 
emit(u ':=' ‘inttoreal’ E,.place); 
emit(E.place ':=' u 'real +’ E, place); 
E.type := real 

end 

else if E,.type = real and E,.type = integer then begin 
“i= newtemp; 
emit(u ':=’ ‘inttoreal’ E,.place); 
emit(E.place ':=' E,.place 'reai +’ u); 
E.type := real 


E.type := type-error; 





图 8-19 ES El+ E; 的 语义 动作 


的 操作 符 ， 则 情况 更 糟 )。 所 以 ， 有 较 多 类 型 时 ， 仔 细 地 组 织 语义 动作 是 非常 重要 的 。 


8.3.6 记录 域 的 访问 


编译 器 必须 明了 记录 域 的 类 型 和 相对 地 址 ， 把 这 些 信息 记 在 域名 字 的 符号 表 表 项 中 的 好 处 
是 ,在 符号 表 中 查找 名 字 的 例 程 亦 可 用 于 查找 域名 。 知 道 了 这 点 ， 可 以 通过 上 一 节 中 图 8-14 的 
语义 动作 为 每 个 记录 类 型 单独 构造 一 张 符号 表 。 如 果 : 是 指向 记录 类 型 符号 表 的 指针 ， 那 么 将 
构造 器 record 作用 于 该 指针 形成 的 类 型 record(?) 作为 Ttype 被 返回 。 


我 们 用 表达 式 


pt.info + 1 


来 说 明 怎 样 从 属性 Eppe 中 抽取 出 指向 符号 表 的 指针 。 从 该 表达 式 中 的 操作 可 以 知道 ，p 是 指 
向 带 有 域名 info 的 记录 的 指针 ， 且 info 的 类 型 必须 是 算术 类 型 。 如 果 类 型 如 图 8-13 和 图 
8-14 那 样 构造 ， 则 p 的 类 型 必须 由 类 型 表达 式 


pointer (record (t)) 
给 出 。 那 么 pf 的 类 型 是 record (D， 从 中 可 以 抽取 t。 可 以 在 1 指向 的 符号 表 中 查找 域名 info. 
8.4 布尔 表达 式 


在 程序 设计 语言 中 ， 布 尔 表 达 式 有 两 个 基本 的 作用 。 一 个 是 用 于 计算 逻辑 值 ， 但 更 多 地 是 
用 作 如 if-then, if-then-else 或 while-do 等 语句 中 改变 控制 流 的 条 件 表达 式 。 

布尔 表达 式 是 由 布尔 运算 符 ( and，or 和 not) 作用 于 布尔 变量 或 关系 表达 式 而 构成 的 。 
关系 表达 式 的 形式 是 E relop E, HP E ME. 是 算术 表达 式 。 一 些 语言 ， 辟 如 说 PLA, fit 
更 一 般 的 表达 式 ， 即 布尔 、 算 术 及 关系 运算 符 可 以 作用 于 任何 类 型 的 表达 式 ， 布尔 值 和 算术 值 


D 


D 
oo 
No] 
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之 间 没 有 区 别 ， 必 要 时 可 以 进行 强制 转换 。 本 节 考 虑 由 如 下 文法 生成 的 布尔 表达 式 : 
E>EorE |EandE |notE |(E) | id relop id | true | false 


我 们 用 属性 op 来 确定 relop KRKKHW EMRE <<,=,4 >, 2 中 的 哪 一 个 。 按 习惯 ， 我 们 
假定 or 和 and 是 左 结合 的 ，or 的 优先 级 最 低 ， 其 次 是 and， 最 后 是 not。 
8.4.1 翻译 布尔 表达 式 的 方法 

有 两 种 主要 方法 表示 布尔 表达 式 的 值 。 第 一 种 方法 是 将 真 和 假 按 数值 编码 ， 从 而 对 布尔 表 
达 式 的 计算 类 似 于 对 算术 表达 式 的 计算 。 常 常用 1 表示 真 ， 而 用 0 表示 假 ， 虽 然 许多 其 他 的 编码 
也 是 可 能 的 。 例 如 , 可 以 用 非 0 表 示 真 ，0 表 示 假 ; 或 者 非 负数 表示 真 ， 负 数 表 示 假 。 

实现 布尔 表达 式 的 第 二 种 方法 是 通过 控制 流 , 即 用 程序 到 达 的 位 置 来 表示 布尔 表达 式 的 值 。 
用 这 种 方法 实现 控制 流 语句 中 的 布尔 表达 式 尤 其 方便 。 例 如 ， 对 于 表达 式 El or Ey, WARE 
TE 是 真 ， 那么 可 以 肯定 整个 表达 式 为 真 ， 而 不 必 再 去 计算 E 

程序 设计 语言 的 语义 决定 了 是 否 需 要 计算 布尔 表达 式 的 所 有 部 分 。 如 果 语 言 定 义 人 允许 (或 
要 求 ) 部 分 布尔 表达 式 不 用 计算 ， 那么， 编译 器 可 以 优化 布尔 表达 式 的 计算 ， 使 之 只 计算 足 
够 的 部 分 便 可 确定 它 的 值 。 因 此 ， 在 E or E 这 样 的 表达 式 中 ， 不 必 完 全 计算 出 Ei 及 E W 
果 ER Eo 是 有 副作用 的 表达 式 ( 即 包 含 修改 全 局 变量 的 函数 )， 那 么 可 能 会 得 到 跟 预期 不 一 
致 的 结果 。 

上 述 两 种 方法 中 ， 不 能 绝对 地 说 某 一 种 优 于 另 一 种 。 例 如 ，BLISS/11 优 化 编译 器 为 每 个 表 
达 式 单独 选择 适当 的 方法 。 本 节 将 讨论 把 布尔 表达 式 翻 译 成 三 地 址 码 的 这 两 种 方法 。 
8.4.2 数值 表示 

首先 考虑 用 1 表示 真 用 0 表示 假 的 布尔 表达 式 的 实现 。 表 达 式 将 从 左 到 右 按 与 算术 表达 式 
类 似 的 方式 完全 计算 。 例 如 ， 


a or b and not c 


将 被 翻译 成 如 下 三 地 址 序列 : 





a<b 这 样 的 关系 表达 式 等 价 于 条 件 语句 if a<b then 1 else 0， 它 可 以 被 翻译 成 三 
地 址 码 序列 为 (假定 语句 标号 从 100 开 始 ): 

100: if a < b goto 103 

101: t := 0 

102: goto 104 

103: t := 1 

104: 

为 布尔 表达 式 产生 三 地 址 码 的 一 个 翻译 模式 见 图 8-20。 在 该 模式 中 ， 假 定 emit 以 正确 的 格 
式 把 三 地 址 语句 发 送 到 输出 文件 中 ，nextstat 给 出 下 一 个 三 地 址 语句 在 输出 序列 中 的 索引 ， 产 
生 每 一 个 三 地 址 语句 之 后 ，erair 便 将 nextstat 加 1。 


例 8.3 ”图 8-20 中 的 翻译 模式 为 表达 式 a<b or ced and e<f 生 成 的 三 地 址 码 如 图 8-21 所 
示 。 口 
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E>E oE, { E.place := newtemp; 

emit(E.place ':=' E,.place 'or' E place) } 
E > E, and £, { E.place := newtemp; 

emit (E.place ':=' E,.place 'and' E,.place) } 
E > not E, { E.place := newtemp; 

emit(E.place ':=' 'not’ E,.place) } 


E> (E,) { E.place := E,.place } 


E > id, relop id, { E.place := newtemp; 
emit('if’ id,.place relop.op id,.place ‘goto’ nextstat +3); 
emit(E.place ':=' '0'); 
emit (‘goto’ nextstat +2); 
emit(E.place ':=' '1') } 


{ E.place := newtemp, 
emit(E.place ':=''1') } 


{ E.place := newtemp; 
emit(E.place ':=' '0') } 





图 8-20 用 数值 表示 布尔 值 的 翻译 模式 


: if a < b goto 103 : t2 := 1 

> ty := 0 : if e < f goto 111 
: goto 104 

: ty := 1 


: if c < d goto 107 
: t) := 0 
: goto 108 








图 8-21 表达 式 a<b or c<d and e<f 的 翻译 

8.4.3 短路 代码 

即使 不 对 布尔 运算 符 生成 代码 并 且 不 必 生 成 整个 表达 式 的 代码 ， 我 们 也 可 以 把 布尔 表达 式 
翻译 成 的 三 地 址 码 。 这 种 风格 的 计算 有 时 叫做 “短路 ”或 “ 跳 转 ” 人 代码。 如 果 用 代码 序列 中 的 
位 置 来 表示 表达 式 的 值 ， 那 么 可 能 不 用 为 布尔 运算 符 and, or 和 not 生成 代码 就 可 以 计算 表达 
式 的 值 。 例 如 ， 图 8-21 中 ， 可 以 根据 到 达 语 句 101 还 是 语句 103 来 确定 ti 的 值 ， 因 此 t 的 值 是 
元 余 的 。 对 于 许多 布尔 表达 式 ， 确 定 表 达 式 的 值 而 不 用 完全 计算 它 是 可 能 的 。 
8.44 控制 流 语句 

现在 考虑 在 由 下 面 文法 生成 的 if-then、if-then-else 和 while-do 语句 的 上 下 文中 的 将 布尔 表 
达 式 翻译 成 三 地 址 语句 ， 

S ~ if E then S; 


| if E then S, else S, 
| while E do S, 


在 这 些 产生 式 中 ，E 是 要 翻译 的 布尔 表达 式 。 在 翻译 中 ， 假 定 可 以 用 符号 标号 来 标识 一 条 三 地 
址 语句 ， 每 次 调用 函数 newlabel 将 返回 一 个 新 的 符号 标号 。 

对 于 一 个 布尔 表达 式 已 关联 两 个 标号 ; Larue 和 Efalse， 它 们 分 别 表示 E 为 真 和 假 时 控制 
流转 向 的 标号 。 翻 译 控制 流 语句 S 的 语义 规则 允许 控制 从 Scode 中 跳 转 到 紧 接 在 S.code 之 后 
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的 那 条 三 地 址 指令 。 但 在 某 些 情况 下 ， 紧 跟 Scode 的 指令 是 跳 转 到 某 个 标号 L 的 跳 转 指令 ， 
用 继承 属性 S.next 可 以 避免 从 S.code 中 跳 转 到 L 的 跳 转 。S.next 的 值 是 标号 ， 它 是 5 的 代码 后 
应 执行 的 第 一 个 三 地 址 指令 的 标号 ”。 我 们 没有 给 出 Snert 的 初始 化 。 

在 翻译 if-then 语句 Sif E then S, 时 ， 建 立 一 个 新 标号 E.true， 并 把 它 作为 语句 S 生成 的 
第 一 条 三 地 址 指令 的 标号 ， 如 图 8-22a 所 示 。 图 8-23 给 出 了 一 个 语法 制导 定义 。E 的 代码 是 : E 
为 真 则 跳 转 到 E.true; E 为 假 则 跳 转 到 S.next。 因 此 ,我 们 置 E false 为 S.next。 















to E.true 
E.code o 
to E.true to E. false 
E.code . E.true : 
to E. false 
E.true : 
S, -code goto S.next 
E. false : 
E. false : nas S,.code 
S.next: toe 
a) b) 
to E.t 
S.begin : ae ue 
E.code to E. false 
-> 
E.true : 
S,.code 
E. false : tt 








c) 
图 8-22 if-then, if-then-else 和 while-do 语句 的 代码 
a) if-then b) if-then-else c) while-do 


在 翻译 if-then-else 语句 Sif E then S, else S: Wf, WREAH, 布尔 表达 式 的 代码 跳 转 到 
S 代码 的 第 一 条 指令 ; 如 果 E 为 假 ， 跳 转 到 5, 代码 的 第 一 条 指令 ， 如 图 8-22b 所 示 。 和 if-then 
语 名 一样， 继承 属性 5S.next 给 出 了 执行 5 的 代码 后 要 执行 的 第 一 个 三 地 址 语句 的 标记 。 在 5 
的 代码 之 后 有 一 条 明显 的 goto S.next 指令 , 但 S 之 后 没有 。 使 用 这 些 语义 规则 ， 如 果 S.next 
KERRE Scode 之 后 的 指令 的 标号 ， 那 么 外 围 语 句 将 在 S 的 代码 之 后 提供 跳 转 到 S.next 的 
指令 ， 其 证 明 留 给 读者 。 

语句 S—while E do S, 的 代码 如 图 8-22c 所 示 。 首 先 建立 一 个 新 的 标号 S.begin， 并 将 其 作 
HE 的 第 一 条 指令 的 标号 。 另 一 个 新 标号 E.true 作为 S 的 第 一 条 指令 的 标号 。E 的 代码 在 E 
为 真 时 跳 转 到 Etrue, ME E 为 假 时 跳 转 到 5S.next， 因 此 E.false 还 是 置 为 S.next。 在 51 的 代码 
之 后 ， 我 们 放 上 指令 goto 5.begin， 它 引起 控制 跳 转 到 布尔 表达 式 代码 的 开始 位 置 。 注 意 ， 
Si.next 置 为 标号 S.begin, XEM Si.code 中 的 跳 转 指令 就 可 以 直接 跳 转 到 S. begin. 

我 们 将 在 8.6 节 更 详细 地 讨论 控制 流 语句 的 翻译 ，8.6 节 使 用 一 种 称 为 “回填 ”的 方法 ， 经 
过 一 遍 扫 描 即 可 生成 这 些 语句 的 代码 。 


O 如 果 按 字面 来 实现 , 继承 标号 S.next 的 方法 可 能 导致 标号 的 增生 。8.6 节 的 回填 方法 只 在 需要 时 才 生 成 标号 。 
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产生 式 语义 规则 
S > if E then S, E.true := newlabel, 
E. false := S.next, 
Si next := S.next; 
S.code := E.code | 
gen(E.true ':') || S,.code 
S ~ if E then S, else S, E.true := newlabel, 
E. false := newlabel, 
S,-next :一 S.next, 
Sy.next := S.next; 
S.code := E.code || 
gen (E.true ':') | S\.code | 
gen('goto’ S.next) | 
gen (E. false ':') || Sz.code 
S — while E do S, S.begin := newlabel, 
E.true := newlabel, 
E. false := S.next; 
S,.next := S. begin, 
S.code := gen(S.begin ':' ) || E.code | 


gen(E.true ':') || S,.code || 
gen('goto’ S. begin) 





图 8-23 控制 流 语句 的 语法 制导 定义 
8.4.5 布尔 表达 式 的 控制 流 翻译 

我 们 现在 讨论 Ecode， 图 8-23 中 为 布尔 表述 式 E 生成 的 代码 。 正 如 前 面 所 说 的 ，E 被 翻译 
成 三 地 址 语句 序列 ， 将 E 作为 跳 到 下 面 两 个 位 置 之 一 的 条 件 跳 转 和 无 条 件 跳 转 序列 来 计算 ， 
E.true 表示 EE 为 真 时 跳 转 到 的 位 置 ，E.false 表示 E 为 假 时 跳 转 到 的 位 置 。 

这 种 翻译 的 基本 思想 如 下 所 述 : 假定 E 形 如 a<b， 则 生成 的 代码 形式 为 : 


if a < b goto E.true 
goto E.false 


设 E 形 如 El ork, MRE AH, WBA el EAR, B Ei.true 和 已 true 相同 。 如 果 E 
为 假 ， 则 必须 计算 E 的 值 ， 因 此 我 们 令 Efase 为 E 代码 的 第 一 条 语句 的 标号 。E 的 真 、 假 
出 口 分 别 与 互 的 真 、 假 出 口 相 同 。 

翻译 E and E; 也 采用 类 似 地 考虑 。neot E 形式 的 表达 式 E 无 需 生 成 代码 ， 只 要 交换 Ei 的 
真 值 出 昌 和 假 值 出 口 就 可 以 得 到 EE 的 真 、 假 值 出 口 。 按 这 种 方法 为 布尔 表达 式 生成 三 地 址 码 的 
语法 制导 定义 见 图 8-24， 注 意 ，true 和 false 都 是 继承 属性 。 


例 8.4 再 次 考虑 如 下 表达 式 : 


a < bor c <d ana e <f 


假定 整个 表达 式 的 真 、 假 出 口 已 分 别 置 为 Utrue 和 Lfalse， 那么 用 图 8-24 的 定义 可 以 得 到 
下 列 代 码 : 


if a < b goto Ltrue 
goto L1 

Li: if c < d goto L2 
goto Lfalse 
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$ 
oo 
+h 








L2: if e < f goto Ltrue 
goto Lfalse 
注意 ， 这 里 生成 的 代码 不 是 优化 的 ， 因 为 删 掉 第 二 条 语句 不 会 改变 代码 的 值 。 这 种 形式 的 宛 余 
t S FABIFL ( peephole ) 优化 器 ( 见 第 9 章 ) 可 以 很 容易 地 删除 。 避 免 产 生 这 些 元 余 跳 转 的 另 
一 个 办 法 是 把 形 如 idi<id, 的 关系 表达 式 翻 译 成 if id) Sid, goto Efalse 语句 ， 但 前 提 是 条 件 














为 真 时 执行 紧 跟 在 它 之 后 的 代码 。 口 
语义 规则 
E-E, or E, E true := E.true; 
E,.false := newlabel; 
Ey.true := E.true; 


E,.false := E. false; 
E.code := Ey.code || gen(E,.false':') | Es.code 


E > E, and E, E ,.true := newlabel; 
E, .false := E. false; 
E,.true := E.true; 


Ez. false := E. false; 
E.code := E,.code | gen(E,.1rue’:') || Ey.code 





E > not E, E true := E. false; 
E, false := E.true; 
E.code := E,.code 
E> (E ) E true := E.true; 
Ey.false := E.false; 
E.code := El.code 
E > id, relop id:| E.code := gen(‘if’ id, place relop.op id.place ‘goto’ E.true) || 


gen('goto’ E. false) 


E > true E.code := gen('goto’ E.true) 


E 一 false E.code := gen(‘goto’ E. false) 
图 8-24 为 布尔 表达 式 生 成 三 地 址 码 的 语法 制导 定义 
例 8.5 考虑 如 下 语句 : 


while a < b do 
if c < d then 
x :zy+ 2Z 
else 
xis y-Z 


上 面 的 语法 制导 定义 ， 以 及 赋值 语句 和 布尔 表达 式 的 翻译 模式 ， 将 生成 下 列 代码 : 


L1: if a < b goto L2 
goto Lnext 

L2: if c < d goto L3 
goto L4 

L3: ty := y+ 2z 
x := ti 
goto L1 

L4: ty := 了 -zZz 
x := ty 
goto L1 

Lnext: 
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注意 ， 通 过 改变 测试 的 方向 ， 可 以 删除 前 两 个 goto 语 句 。 这 种 类 型 的 局 部 翻译 可 以 利用 第 9 章 


讨论 的 客 孔 优化 器 来 完成 。 
8.4.6 混合 模式 的 布尔 表达 式 


口 


需要 注意 的 是 我 们 已 经 简化 了 布尔 表达 式 的 语法 。 实 际 上 ， 布 尔 表达 式 通常 含有 算术 子 表 
AR, Wal (arb) <c。 在 假 值 为 算术 值 0、 真 值 为 数值 1 的 语言 中 ，(a<b) + (b<a) 甚至 可 以 被 | 人 4 
看 作 是 算术 表达 式 。 如 果 a 与 b 的 值 相等 ， 则 等 于 0， 和 否则 等 于 1。 495 

即使 用 计算 其 值 的 代码 表示 算术 表达 式 ， 利 用 跳 转 代码 表示 布尔 表达 式 的 方法 仍然 可 以 使 


用 。 例如， 考虑 下 面 的 代表 语法 : 


E>E+E|\EandE |ErepE|id 


我 们 假定 E+E 产生 一 个 整 型 算术 结果 (本 例 中 ， 包 含 实 型 或 其 他 的 算术 类 型 将 使 问题 变 得 更 


复杂 ， 却 没有 什么 价值 ), 而 E and E 
及 EE relop E 产生 由 控制 流 语句 代表 的 
布尔 值 。 表 达 式 E and E 要 求 两 个 参数 
都 必须 是 布尔 型 的 ， 但 是 操作 + 及 relop 
使 用 两 种 参数 类 型 都 可 以 ， 包 括 混合 类 
型 。E 一 id 也 被 认为 是 算术 操作 数 ， 尽 
管 可 以 使 用 布尔 标识 符 扩 展 该 例子 。 

在 这 种 情况 下 生成 代码 ， 我 们 可 以 
使 用 综合 属性 E type, CRI E 的 类 型 
决定 是 arith 还 是 bool 类 型 。 对 布尔 表 
达 式 ,无 具有 继承 属性 已 true K E false, 
而 对 算术 表达 式 则 具有 综合 属性 Eplace。 
E> E,+ E, 的 部 分 语义 规则 如 图 8-25 
所 示 。 





E.type := arith, 
if E,.type = arith and E,.type = arith then begin 
/* 正常 算术 加 法 */ 
E.place := newtemp, 
E.code := E,.code || E,.code || 
gen(E.place ':=' E,.place '+' Ey.place) 


end 
else if E, type = arith and E,.type = bool then begin 


E.place := newtemp; 

£,.true := newlabel; 

E. false := newlabel:; 

E.code := El.code || E,.code || 
gen(E,.true':' E.place ':=' E,.place + 1) || 
gen('goto’ nextstat + 1) || 
gen(E,. false':' E.place ':=' E,.place) 





图 8-25 产生 式 E>Ei+E, 的 语义 规则 


在 混合 模式 情况 下 ， 我 们 先 为 E 生成 代码 ， 然 后 是 E， 紧 跟着 是 如 下 三 个 语句 : 


E,.true: E.place := E,.place + 1 
goto nextstat +1 

E,. false: E.place := E,.place 496 
当 E, 为 真 时 ， 第 一 条 语句 为 E 计算 E + 1 的 值 。 当 E; 为 假 时 ， 第 三 条 语句 为 E 计算 局 的 值 。 
第 二 条 语句 跳 过 第 三 条 语句 。 剩 余 情况 与 其 他 产生 式 的 语义 规则 与 此 十 分 相似 ， 我 们 将 其 留 作 
练习 。 
8.5 case 语 句 switch 表达 式 

许多 语言 中 都 提供 switch 语句 或 case HAI; HE Pee ase ii. à 
Fortran 中 的 计算 goto 和 赋值 goto 都 可 以 看 作 是 switch case (È: 语 4 
诸 句 的 变种 。 我 们 的 switch 语句 的 语法 如 图 8-26 所 示 。 

这 里 有 一 个 需要 计算 的 选择 表达 式 ， 后 面 有 个 常 
量 值 ， 它 们 是 表达 式 可 能 的 取 值 。 也 许 还 包含 一 个 默认 end 
值 ， 它 总 是 匹配 那些 没有 其 他 值 匹 配 的 选择 表达 式 。 图 8-26 switch 语句 的 语法 


case 值 : 
default: 语句 
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switch 语句 的 翻译 代码 是 ; 

1. 计算 表达 式 的 值 。 

2. 在 case 列表 中 查找 与 表达 式 值 相同 的 值 。 如 果 没 有 这 样 显 式 的 值 ， 则 默认 值 与 表达 式 
值 匹 配 。 

3. 执行 与 找到 的 值 相 关联 的 语句 。 

步 又 2 是 路 的 分 支 ， 它 可 以 用 几 种 方法 实现 。 如 果 情 况 数 不 是 很 多 ， 璧 如 说 最 多 10 个 ， 则 
用 条 件 goto 序列 是 合理 的 ， 每 个 goto 测试 一 个 单独 的 值 ， 为 真 时 就 转移 到 相应 语句 的 代码 。 

实现 该 条 件 goto 序列 的 一 种 更 为 紧凑 的 办 法 是 建立 一 个 序 对 表 ， 每 个 序 对 由 值 和 相应 语 
名 代码 的 标号 组 成 。 还 要 生成 把 表达 式 的 值 放 在 该 表 未 尾 的 代码 ， 积 它 配对 的 是 默认 语句 的 标 
号 。 编 译 器 可 以 生成 一 个 简单 循环 ， 将 表达 式 的 值 和 表 中 每 个 值 进行 比较 ， 如 果 确 信 没 有 其 他 
的 值 可 匹配 ， 最 后 的 默认 条 目 肯定 匹配 。 

如 果 值 的 数目 大 约 超过 10 ， 为 这 些 值 构造 散 列 表 ( 见 7.6 节 ) 会 更 有 效 ， 将 这 些 语句 的 标 
号 作为 散 列 表 的 表 项 。 如 果 找 不 到 与 switch 语句 包含 的 表达 式 值 相应 的 表 项 ， 则 生成 到 默认 
语句 的 跳 转 。 

有 一 种 通常 的 特殊 情况 ， 可 以 用 更 有 效 的 办 法 来 实现 n 路 分 支 。 如 果 所 有 的 值 落 在 一 个 较 
小 的 区 间 内 ， 比 方 说 imin 和 imax 之 间 ， 不 同 值 的 个 数 占 ioin 的 相当 一 部 分 ， 那么 可 以 构造 
一 个 标号 数组 ， 值 j 的 语句 标号 放 在 偏 移 为 j- imn 的 表 项 中 ， 空 白 的 表 项 全 添上 默认 语句 的 标 
号 。 执 行 switch 时 ， 先 计算 表达 式 以 获得 它 的 值 j， 然 后 检查 它 的 值 是 否 在 imo 和 ix 之 间 ， 
再 间接 转移 到 偏 移 为 了 - imn 的 表 项 。 例 如 ， 如 果 表 达 式 为 字符 类 型 ， 则 可 以 建立 一 个 具有 128 
个 表 项 ( 根据 字符 集 的 大 小 ) 的 表 ， 这 时 范围 检查 可 以 省 去 。 





case 语 句 的 语法 制导 翻译 
考虑 下 面 的 switch 语句 : 计算 已 并 将 其 存 人 上 的 代码 
switch E ote 
begin goto next 
case Vi: Sy : 5; 的 代码 
case V2: Sq goto next 
case V,,_,: Sa-i n-i} Sna BARE 
default: Sn goto next 
end : 5: 的 代码 
goto next 
用 语法 制导 翻译 模式 ， 可 以 很 容易 地 把 该 case 语句 if t= vı goto bı 
翻译 成 形 如 图 8-27 所 示 的 中 间 代 码 。 7 goto la 
所 有 的 测试 都 放 在 末端 ， 以 便 简单 的 代码 生成 it t > V,-1 goto Ly-1 
器 可 以 识别 这 种 多 路 分 支 ， 并 用 本 节 开头 建议 的 最 geno 
恰当 的 实现 方法 为 其 生成 高 效 的 代码 。 如 果 要 生成 TUNAN 
图 8-28 中 更 直 截 的 代码 序列 ， 则 代码 生成 器 还 要 做 更 图 8-27 case 语句 的 一 种 翻 详 


深入 的 分 析 ， 才 能 找 出 效率 最 高 的 实现 方法 。 注 意 ， 把 分 支 语 名 放 在 开始 处 是 不 方便 的 ， 因 为 
编译 器 不 能 在 遇 到 每 个 8 时 就 为 其 生成 代码 。 

为 了 翻译 成 图 8-27 的 形式 ， 当 看 到 关键 字 switch 时 ， 首 先生 成 两 个 新 的 标号 test 和 
next 以 及 一 个 新 的 临时 名 字 上 +。 然 后 在 分 析 表 达 式 EM, ARO 五 的 计算 值 存 到 上 的 代码 。 
处 理 完 EE 之后， 生成 跳 转 goto test 语句 。 

然后 ， 当 看 到 关键 字 case 时 ， 建 立 一 个 新 的 标号 L;， 并 把 它 填 进 符号 表 中 ， 把 指向 该 符 
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号 表 表 项 的 指针 和 case 常量 的 值 V; 压 人 专用 于 存 计算 E 并 将 其 存 人 t 的 代码 
储 case 的 栈 。( 如 果 该 switch 语句 钳 在 另 一 个 if t # V, goto Di 
switch 语 句 的 内 部 ， 还 需 在 栈 上 放 一 个 标记 ， 以 区 ea next 

别 内 外 两 个 switch 语 句 的 case。 ) : if t # V, goto Ly 


我 们 通过 输出 新 创建 的 标号 L, 处 理 每 个 语句 aa at 
case V;: Si, Li 后面 跟 以 8 的 代码 ， 再 后 面 是 跳 转 
goto next。 当 遇 到 终止 switch 语 句 体 的 关键 字 


if t # V,-, goto Lp- 


end 时 ， 我 们 已 准备 好 为 路 分 支 生成 代码 了 。 自 的 代码 
底 向 上 扫描 case 栈 ， 读 出 指针 - 值 序 对 ， 即 可 和 后 成 goto next 


5; 的 代码 
如 下 形式 的 三 地 址 语句 序列 : 


case V, Ly 图 8-28 case 语句 的 另 一 种 翻译 


case V; Ly 


case V,- La- 
case t L, 
label next 


RP, t 是 保存 选择 表达 式 丐 的 值 的 名 字 ，L 是 默认 语句 的 标号 。 三 地 址 语句 case ViL 和 图 
8-27 中 if 上 = W goto EL 一 样 ， 但 是 对 最 终 的 代码 生成 器 来 说 ，case 比较 容易 被 检测 为 需 
特殊 处 理 候选 式 。 在 代码 生成 阶段 ，case 语句 序列 能 否 被 翻译 成 效率 更 高 的 ”路 分 支 ， 取 决 
于 有 多 少 个 值 ， 以 及 这 些 值 是 否 落 在 一 个 小 区 间 内 。 


8.6 回填 


8.4 节 中 语法 制导 定义 的 最 简单 的 实现 方法 是 使 用 两 遍 扫 描 。 首 先 ， 为 输入 构建 一 棵 语法 
树 ， 然 后 按 深度 优先 顺序 遍历 语法 树 ， 计 算 定 义 中 给 出 的 翻译 。 通 过 单 遍 扫描 为 布尔 表达 式 和 
控制 流 语 句 生成 代码 的 主要 问题 是 在 单 遍 扫描 中 ， 生 成 跳 转 语句 时 我 们 可 能 不 知道 控制 要 转向 
的 语句 标号 。 为 此 , 我 们 可 以 先生 成 暂时 没有 指定 目标 标号 的 一 系列 跳 转 指令 来 克服 这 个 问题 。 
每 个 这 样 的 语句 都 将 放 在 一 个 goto 语句 列表 中 ，goto 语句 列表 的 标号 在 目标 标号 确定 下 来 后 
再 添 人 。 我 们 称 这 种 之 后 添 人 标号 的 方式 为 回填 。 

本 节 将 说 明 如 何 利用 回填 技术 通过 单 遍 扫描 生成 布尔 表达 式 和 控制 流 语句 的 代码 。 除 了 生 
成 标号 的 方式 以 外 ， 我 们 生成 的 翻译 将 与 8.4 节 的 形式 相同 。 为 具体 起 见 ， 我 们 将 四 元 式 放 在 
一 个 四 元 式 数 组 中 ， 标 号 将 是 这 个 数组 的 下 标 。 为 操纵 标号 列表 我 们 要 用 到 以 下 三 个 函数 : 

1. makelist (i)， 创 建 一 个 只 包含 的 新 列表 ，i 是 四 元 式 数 组 的 下 标 ，makelist 返回 指向 它 所 
创建 列表 的 指针 。 

2. merge (pi, p), BHA 和 p 指向 的 两 个 列表 ， 并 返回 指向 连接 后 的 列表 的 指针 。 

3. backpatch (p, i), 将 i 插入 到 由 p 指向 的 列表 的 每 一 条 语句 中 作为 该 语句 的 目标 标号 。 
8.6.1 布尔 表达 式 

我 们 现在 构造 一 种 翻译 模式 ， 它 适合 于 在 自 底 向 上 语法 分 析 过 程 中 为 布尔 表达 式 生成 四 元 
式 。 我 们 将 把 标记 非 终 结 符 M 插 人 到 文法 中 ， 以 便 引 人 一 个 语义 动作 在 适当 的 时 候 获 得 下 一 
四 元 式 的 索引 。 我 们 将 使 用 如 下 文法 : 





498 
z 
499 


324 Z8? 


(1) E> E,orME, 


(2) | E,andM E, 
(3) | not E, 

(9) | (Ey) 

(5) | id, relop id, 
(6) | true 

(7) | false 

(8) Me 


非 终结 符 E 的 综合 属性 truelist 和 falselist 用 于 生成 布尔 表达 式 的 跳 转 代码 。 在 生成 E 的 代码 
时 ， 还 不 能 完全 完成 跳 转 到 真 、 假 出 口 的 代码 ， 因 为 指令 中 的 目标 标号 域 尚 不 能 填写 。 这 些 未 
完成 的 跳 转 指令 放 在 由 E.truelist ME falselist 所 指向 的 列表 中 。 

语义 动作 应 反映 上 述 考 虑 。 考 虑 产生 式 E>E and M E WE E 为 假 ， 则 E 也 为 假 ， 所 
VA E falselist 列表 中 的 语句 应 是 Efalselist 列表 的 一 部 分 。 如 果 E 为 真 , 则 必须 进一步 检查 Ep, 
因此 E\.truelist 列表 中 转移 语句 的 目标 标号 一 定 是 6 的 第 一 条 语句 的 标号 。 该 目标 标号 是 通过 
标记 非 终 结 符 M 获得 的 。 属 性 M.quad 记录 Encode 的 第 一 条 语句 的 编号 。 对 于 产生 式 Me, 
我 们 关联 其 语义 动作 为 : 


{ M.quad := nextquad } 


变量 nextquad 用 于 保存 紧 跟 着 的 下 一 四 元 式 的 索引 。 在 看 到 产生 式 EE, and M E, 的 剩余 部 
分 后 ， 该 值 回填 Ei.truelist 列表 中 。 翻 译 模 式 如 下 : 


( E> E,orME, { backpatch (Elselist M.quad), 
E. truelist := merge (E | .truelist, E .truelist); 
E. falselist := E. falselist } 
(2) E> E,andM E, { backpatch (E,.truelist, M.quad); 
E.truelist := E,.truelist, 
E. falselist := merge (E ,.falselist, Ey.falselist) } 


(3) E > notE, { E.truelist := E,.falselist; 
E. falselist := E,.truelist } 
(4) E> (E) { E.truelist := E,.truelise; 


E. falselist := E,.falselist } 


(5) E > id, relop id) { E.truelist := makelist(nextquad); 
E. falselist := makelist(nexiquad + 1); 
emit(‘if' id,.place relop.op id,.place 'goto _') 
emit (‘goto —') } 


(6) E — true { E.truelist := makelist (nextquad); 
emit(‘goto —') } 

(7) E ~ false { E.falselist := makelist (nextquad); 
emit('goto _') } 

(8) Mae { M.quad := nextquad } 


简单 地 说 ， 产 生 式 (5) 的 语义 动作 将 生成 两 条 语句 ， 一 条 是 条 件 goto， 另 一 条 是 无 条 件 goto， 
它们 的 目标 标号 均 未 填写 。 第 一 条 生成 语句 的 下 标 生 成 列表 ， 由 E.truelist 中 指针 指向 这 个 它 ， 
第 二 条 生成 语句 goto_ 也 生成 列表 ， 加 入 到 Efalselist Po 


例 8.6 ”再 次 考虑 表达 式 a<b or c<d and e<f。 它 的 一 棵 注释 分 析 树 如 图 8-29 所 示 。 
在 对 树 的 深度 优先 遍历 过 程 中 执行 动作 。 因 为 所 有 的 动作 均 出 现在 产生 式 右 部 的 末端 ， 所 以 可 
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以 在 自 底 向 上 语法 分 析 中 伴随 着 对 产生 式 的 归 约 来 执行 它们 。 在 用 产生 式 (5) 将 a<b 归 约 为 E 
时 ， 生 成 如 下 两 个 四 元 式 : 

100: if a < b goto _ 

101: goto . 
(在 此 我 们 再 次 假定 语句 编号 从 100 开 始 。) 产生 式 EE, or M E: 中 的 标记 非 终结 符 M 记录 
nextquad 的 值 ， 此 时 为 102。 在 用 产生 式 (5) 将 c<a 归 约 为 E 时 ， 生 成 如 下 两 个 四 元 式 : 


102: if c < d goto _ 
103: goto - 


现在 我 们 已 经 在 产生 式 E 一 El and M E 中 看 到 E!， 在 此 产生 式 中 的 标记 非 终 结 符 M 记录 下 
nextquad 的 值 ， 现 在 是 104。 用 产生 式 (5) 将 e<f 归 约 为 E 时 ， 生 成 如 下 两 个 四 元 式 : 


104: if e < f goto _ 
105: goto - 


现在 我 们 用 产生 式 EOE, and M 已 进行 归 约 。 相 应 的 语义 动作 调用 backpatch({102},104), 
其 中 参数 {102} 表 示 一 个 指针 ， 指 向 仅 包含 102 的 列表 ， 而 此 列表 就 是 那个 由 E.truelist 指向 的 
列表 。 该 backpatch 调用 将 104 填 到 语句 102 中 。 至 此 生成 的 六 条 语句 为 : 


100: if a < b goto - 


101: goto _ 

102: if c < d goto 104 
103: goto — 

104: if e < f goto _ 
105: goto - 


最 后 用 产生 式 EOE, or M E: 进行 归 约 ， 相 应 的 语义 动作 调用 backpatch ({101},102) 将 上 
述 语句 变 为 : 


100: if a < b goto _ 
101: goto 102 
102: if c < d goto 104 


103: goto _ 
104: if e < f goto - 
105: goto — 


当 且 仅 当 到 达 编 号 为 100 或 104 的 goto 时 ， 整 个 表达 式 为 真 ， 而 当 且 仅 当 到 达 编 号 为 103 或 


E.t = {100, 104} 
E.f = {103, 105} 


eon way an 


E.t = {100} | E.t = {104} 
E.f = {101} € E.f = {103, 105} 
S\N oN 

a < b and M.q = 104 
E.t = {102} | E.t = {104} 
E.f = {103} € E.f = {105} 

S\N LAN 

c < d e < £ 


图 8-29 a<b or ced and e<f 的 注释 分 析 树 
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105 的 goto 时 ， 整 个 表达 式 为 假 。 这 些 指令 的 目标 标号 将 在 后 面 的 编译 中 填写 ， 那 时 根据 表达 
式 的 真 假 状 态 就 知道 了 要 做 什么 。 口 
8.6.2 控制 流 语句 

现在 我 们 来 介绍 如 何 将 回填 技术 用 在 控制 流 语 名 的 一 遍 翻 译 中 。 如 上 所 述 ， 我 们 将 注意 力 
集中 在 四 元 式 的 生成 上 ， 而 且 继 续 沿 用 上 节 中 有 关 域 名 翻译 的 符号 和 列表 处 理 过 程 。 作 为 一 个 
更 大 点 的 例子 ， 我 们 将 给 出 下 述 文法 所 生成 语句 的 一 个 翻译 模式 : 

d) S + if E then 


(2) | if E then S else 5 
(3) | while E do S 

(4) | begin L end 

(5) |A 

(6) L+L;s 

m |s 


在 此 ，S 表示 语句 ,Z 表示 语句 列表 ，4 为 赋值 语句 ， 而 E 为 布尔 表达 式 。 注 意 还 必须 有 一 些 
其 他 产生 式 ， 如 生成 赋值 语句 的 产生 式 。 不 过 这 里 给 出 的 产生 式 已 足以 说 明 控制 流 语句 的 翻 
译 技术 。 

我 们 使 用 与 8.4 节 相同 的 if-then、if-then-else 和 while-do 语句 的 代码 结构 。 我 们 还 假定 执 
行 时 紧 跟 在 茶 给 定语 名 后面 的 代码 在 四 元 式 数 组 中 也 紧 跟 其 后 。 否 则 ， 必 须 给 出 一 条 显 式 的 跳 
转 语句 。 

我 们 的 一 般 方 法 是 : 当 发 现 其 目标 时 再 填写 跳 转 语句 的 转向 。 不 仅 布 尔 表 达 式 需要 两 个 跳 
转 列 表 来 在 放 表 达 式 为 真 、 假 时 的 转向 ， 而 且 语 句 亦 需 要 跳 转 列 表 (由 属性 nextlist 给 出 ) 指向 
执行 序列 中 紧 随 其 后 的 代码 。 

8.6.3 翻译 的 实现 方案 

我 们 现在 来 描述 生成 上 述 控制 流 结构 翻译 的 语法 制导 翻译 模式 。 如 前 所 述 ， 非 终结 符 已 有 
两 个 属性 Etruelist 和 E.falselist, L A S 也 分 别 需 要 一 个 未 填写 目标 标号 的 四 元 式 列表 ， 其 目 
标 标号 最 终 用 回填 技术 回填 。 这 些 列表 分 别 由 属性 Lnextlist 和 S.nextlist 指向 。S.nextlist 是 一 
个 指向 跳 转 列表 的 指针 ， 列 表 中 存放 转向 紧 跟 语句 $ 之 后 要 执行 的 四 元 式 的 条 件 跳 转 和 无 条 件 
跳 转 语句 。L.nextlist 的 定义 与 此 类 似 。 

图 8-22c 中 的 语句 5 一 while £ do Si 的 代码 布局 中 ， 有 两 个 标记 S.begin 和 E.true 分 别 标记 
完整 语句 $ 和 语句 体 5 的 代码 的 开始 位 置 。 下 列 产生 式 中 标记 非 终结 符 MM 的 两 次 出 现 记录 这 些 
位 置 的 四 元 式 编 号 : l l 

S > while M, E do M, S, 


M 的 惟一 一 条 产生 式 是 Me ， 它 的 动作 是 将 属性 Mquad 设置 为 下 一 四 元 式 的 编号 。 当 
while 语 句 的 循环 体 5S 执行 完 以 后 ， 控 制 流转 向 S 语 名 的 开始 处 。 因 此 ， 当 我 们 把 while M, E 
do M: S: AAA SH, REE Si.nextlist， 使 得 其 中 所 有 目标 标号 为 Mi.quad。 当 然 ， 我 
们 需要 在 8 的 代码 后 面 追加 一 条 显 式 跳 转 到 天 的 代码 的 开始 位 置 的 指令 ， 因 为 控制 流 可 能 会 
从 底部 离开 循环 。 通 过 将 E.truelist 中 的 跳 转 指向 M2.quad，E.truelist 被 回填 以 跳 转 到 S, 的 
起 始 位 置 。 

为 条 件 语句 if E then S, else S 生成 代码 时 ， 更 能 看 出 使 用 S.nextlist 和 L.nextlist 的 理由 。 
455, 是 赋值 的 情形 一 样 ， 如 果 控 制 离开 S 的 底部 ， 我 们 必须 在 8 的 代码 后 面 增 加 .一 条 跳 转 指令 
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以 跳 过 $ 的 代码 。 我 们 用 另 一 个 标记 非 终结 符 在 S 之 后 引入 这 条 跳 转 指令 ， 设 非 终结 符 N 就 
是 这 个 标记 ， 它 的 产生 式 为 Noe, N 具有 属性 N.nextlist， 它 是 由 N 的 语义 规则 生成 的 
goto_ 语 名 的 四 元 式 编导 构成 的 列表 。 下 面 给 出 修改 后 文法 的 语义 规则 : 


(1) S >if E then M, S, N else M, S2 
{ backpatch (E.truelist, M 1.quad); 
backpatch (E. falselist, M3.quad}; 
S.nextlist := merge (S; .nextlist, merge (N.nextlist, S, .nexilist)) } 
当 E 为 真 时 我 们 用 Mi.quad 回填 E.truelist, CE S 代码 的 起 始 位 置 。 类 似 地 , E 为 假 时 
我 们 回填 跳 转 语句 使 它 转 到 S 的 代码 的 起 始 位 置 。 列 表 S.nextlist 中 包含 所 有 跳出 Si. So 的 跳 
转 指 令 ， 也 包含 由 N 生成 的 跳 转 指令 。 


(2) N 一 上 { N.nextlist := makelist (nextquad),; 
emit (‘goto _') } 

(3) Me { M.quad := nextquad } 

(4) S~- if E then M S, { backpatch(E.truelist, M.quad); 


S.nextlist := merge (E. falselist, S,.nextlist) } 


(5) S ~ while M, E do M; S, { backpatch(S ,.nextlist, M.quad); 
backpatch(E.truelist, M .quad); 
S.nexilist := E. falselist 
emit ('goto' M,.quad) } 

(6) S — begin L end { S.nextlist := L.nextlist } 


(7) S-A { S.nextlist := nil } 


RIEA S.nextlist := nil $ S.nextlist 初始 化 为 空 列 表 。 


(8) L>L;;MS { backpatch(L ,.nextlist, M.quad); 
L.nextlist := S.nextlist } 
执行 顺序 中 Li 后 面 的 语句 应 是 5S 的 起 始 位 置 。 这 样 Linextlist 列表 由 M.quad 回填 转 到 S 
的 代码 的 起 始 位 置 。 


(9) L->S { L.nextlist := S.nextlist } 


注意 ,在 上 述 语义 规则 中 除了 规则 (2) 和 规则 (5) 以 外 ， 均 未 生成 新 的 四 元 式 。 所 有 其 他 代 
码 都 是 由 与 赋值 语句 和 表达 式 相 关联 的 语义 动作 生成 的 。 控 制 流 所 做 的 是 进行 适当 的 回填 ， 以 
便 赋值 语句 与 布尔 表达 式 的 计算 正确 地 连接 起 来 。 
8.6.4 标号 和 goto 

最 基本 的 改变 控制 流 的 程序 语言 结构 是 标号 和 goto。 当 编译 器 遇 到 像 goto Li 这样 的 语 
AN, 它 必 须 检 查 在 goto 语句 的 作用 域 中 恰好 有 一 条 标号 为 L 的 语句 。 如 果 此 标号 已 经 出 现 ， 
无 论 它 是 在 标号 声明 语句 中 还 是 作为 某 条 源 语 句 的 标号 出 现 ， 符 号 表 中 都 一 定 有 一 个 表 项 ， 记 
录 编 译 器 生成 的 标记 ， 它 标识 标号 为 L 语句 的 第 一 条 三 地 址 指令 。 翻 译 时 我 们 生成 goto 三 地 
址 语句 ， 目 标 是 这 个 编译 器 生成 的 标号 。 

在 源 程序 中 第 一 次 遇 到 标号 L 时 ， 无 论 是 在 声明 语句 中 还 是 作为 前 向 goto 的 目标 标号 ， 
我 们 都 将 把 插入 到 符号 表 中 并 为 生成 一 个 符号 标号 。 
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8.7 过 程 调用 


过 程 9 是 一 个 如 此 重要 而 又 频繁 使 用 的 程序 设计 结构 ， 以 至 于 编译 器 必须 为 过 程 调用 和 返 
回 生 成 优良 的 代码 。 人 处 理 过 程 的 参数 传递 、 调 用 和 返回 的 运行 时 例 程 是 运行 时 支撑 程序 包 的 一 
部 分 。 我 们 在 第 7 章 讨论 了 实现 运行 时 支撑 程序 包 的 各 种 不 同 机 制 ， 本 节 我 们 讨论 典型 情况 下 
为 过 程 调用 和 返回 生成 的 代码 。 

考虑 下 面 一 个 简单 的 过 程 调用 语句 的 文法 : 

(U S > call id ( Elist ) 


(2) = Elist > Elist , E 
(3) Elit > E 


8.7.1 调用 序列 

正如 第 7 章 所 讨论 的 那样 ， 过 程 调 用 的 翻译 包括 一 个 调用 序列 ， 它 是 进入 和 离开 每 一 个 过 
程 所 执行 的 一 序列 动作 。 即 使 对 相同 语言 的 实现 ， 调 用 序列 也 可 以 是 不 同 的 ， 下 面 是 典型 情况 
下 发 生 的 动作 。 

当 出 现 一 个 过 程 调用 时 ， 必 须 为 被 调用 过 程 的 活动 记录 分 配 空间 ， 而 且 必 须 计 算 被 调 过 程 
的 参数 并 将 其 放 到 某 已 知 位 置 ， 使 其 对 被 调 过 程 可 用 。 另 外 还 必须 建立 环境 指针 以 使 被 调 过 
程 可 以 访问 外 围 程序 块 中 的 数据 。 还 应 保存 调用 过 程 的 运行 状态 以 便 调 用 完成 后 恢复 原来 的 
执行 。 返 回 地 址 也 要 保存 在 已 知 的 位 置 ， 返 回 地 址 是 被 调 过 程 执 行 完 后 的 转移 地 址 ， 它 经 常 
是 调用 过 程 中 紧 跟 调用 指令 之 后 的 指令 地 址 。 最 后 ， 还 要 生成 一 条 转移 到 被 调 过 程 代 码 起 始 
位 置 的 跳 转 语句 。 

当 从 过 程 返回 时 ， 也 必须 执行 一 些 动作 。 如 果 被 调 过 程 是 一 个 函数 ， 则 必须 将 返回 结果 存 
到 指定 的 位 置 。 调 用 过 程 的 活动 记录 需要 被 恢复 。 还 必须 生成 一 条 转移 到 调用 过 程 返回 地 址 的 
跳 转 语句 。 | 

调用 过 程 和 被 调 过 程 的 运行 时 任务 没有 严格 的 区 分 。 但 源 语言 、 目 标 机 器 和 操作 系统 经 常 
会 强加 一 些 偏向 某 种 方案 的 要 求 。 
8.7.2 一 个 简单 的 例子 

下 面 考虑 一 个 简单 的 例子 ， 其 中 参数 传递 采用 传 址 方式 ， 存 储 分 配 为 静态 分 配 。 这 种 情况 
下 ， 我 们 可 以 使 用 param 语句 本 身 作 为 参数 的 占 位 符 。 用 寄存 器 将 指向 第 一 个 param 语句 的 
指针 传 给 被 调 过 程 ， 然 后 就 可 以 用 相对 于 该 指针 的 适当 的 偏 移 获 得 指向 每 个 参数 的 指针 。 为 这 
种 类 型 的 调用 生成 三 地 址 码 时 ， 只 要 为 表达 式 参 数 生成 计算 参数 的 三 地 址 语句 即 可 ， 然 后 跟 以 
param 三 地 址 语句 列表 ， 每 个 参数 对 应 一 条 param 语句 。 如 果 我 们 不 想 将 参数 计算 语句 同 
param 语句 混在 一 起 ， 则 对 ia(E, E, …, E) 中 的 每 个 EE， 我 们 都 需要 保存 E.place WH. © 

保存 这 些 值 的 方便 的 数据 结构 是 队列 ， 一 个 先进 先 出 列表 。 产 生 式 Elist 一 Elist，E 的 语义 例 
程 将 包含 一 条 将 E.place 存放 到 队列 queue 中 的 指令 。 然 后 产生 式 S 一 call id(Elist) 的 语义 例 程 
将 为 queue 中 的 每 一 项 生成 一 条 param 语句 ， 并 将 这 些 语句 放 在 计算 参数 表达 式 的 语句 之 后 。 
计算 参数 表达 式 的 语句 是 在 将 参数 归 约 为 E 时 生成 的 。 下面 的 语法 制导 翻译 采用 了 这 些 思 想 。 


O 我们 使 用 的 术语 “过 程 ” 包 含 了 函数 。 函 数 是 带 有 返回 值 的 过 程 。 
O ”如果 通 过 将 参数 放 人 栈 中 来 将 其 传递 给 被 调用 过 程 ， 就 像 动 态 数据 分 配 那样 ， 则 没有 理由 不 把 参数 计算 同 
param 语句 合 在 一 起 。 在 代码 生成 时 param 语句 将 被 把 参数 压 人 栈 的 代码 取代 。 
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(1) S ~ call id ( Elist ) 
{ for queue 中 的 每 个 pdo } 
emit(’'param’ p); 
emit('call’ id.place) } 
S 的 代码 就 是 Elst 的 代码 ， 它 计算 各 参数 的 值 ， 后 面 跟着 与 每 个 参数 对 应 的 param p WAJ, 
接着 是 call HA., cal 语句 中 没有 生成 计算 参数 个 数 的 指令 ， 但 我 们 可 以 用 上 一 节 计 算 
Elist.ndim 的 方式 计算 它 。 
(2) Elist > Elist , E 
{ HE place 添加 到 gquene 的 队 尾 } 
(3) Elit > E 
{ 将 queue 初 始 化 为 只 包含 E.place } 


这 里 ， 首 先 将 queue 置 空 ， 然 后 获得 一 个 指向 符号 表 中 表示 已 值 的 名 字 的 位 置 的 指针 。 
练习 


8.1 把 算术 表达 式 a*- (b+c) 翻译 成 如 下 形式 : 
a) 语法 树 。 
b) 后 缀 表示 。 
c) 三 地 址 码 。 
8.2 把 表达 式 - (a+b) *(c+d)+(a+b+c) 翻译 成 如 下 形式 : 
a) 四 元 式 。 
b) 三 元 式 。 
c) 间接 三 元 式 。 
8.3 KARTE C 程序 : 


main() 
{ 
int i; 
int al 10]; 
while (4 <= 10) { 
ali] = 0; i =i + 1; 
} 
} 
将 其 中 的 可 执行 语句 翻译 成 如 下 形式 : 
a) 语法 树 。 
b) 后 缀 表示 。 
c) 三 地 址 码 。 
* 8.4 证 明 : 如 果 所 有 的 运算 符 都 是 二 元 的 ， 那 么 当 且 仅 当下 列 两 个 条 件 成 立时 ， 运 算 符 和 
运算 对 象 的 串 是 后 缀 表达 式 : 
( 运算 符 的 个 数 正好 比 运算 对 象 的 个 数 少 一 个 。 
(2) 该 表达 式 的 每 个 非 空 前 缀 的 运算 符 数 少 于 运算 对 象 数 。 
8.5 修改 图 8-11 中 计算 说 明 语句 中 名 字 类 型 和 相对 地 址 的 翻译 模式 ， 以 允许 在 形 如 D 一 
id:7 的 声明 中 可 以 出 现 一 串 名 字 表 而 不 只 是 一 个 名 字 。 
8.6 算 符 8 作用 于 表达 式 e, ex …, ex 的 前 缀 形式 是 Opprop IEP pi 是 ei 的 前 缀 形式 。 
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a) 给 出 a*- (bic) 的 前 缀 形式 。 

** b) 证明: 所 有 的 语义 动作 都 是 打印 动作 并 且 所 有 的 动作 都 出 现在 产生 式 右 部 末端 的 

翻译 模式 不 能 把 中 弘 表达 式 釉 译 成 前 级 表达 式 。 
c) 给 出 把 中 缀 表达 式 翻 译 成 前 级 表达 式 的 语法 制导 定义 。 你 能 用 第 5 章 的 哪 种 方法 ? 
8.7 试 编写 一 个 程序 ， 用 来 实现 图 8-24 中 将 布尔 表达 式 翻 译 成 三 地 址 码 的 语法 制导 定义 。 
8.8 修改 图 8-24 中 的 语法 制导 定义 ， 以 生成 2.8 节 中 的 栈 式 机 器 代码 。 
8.9 图 8-24 中 的 语法 制导 定义 把 Eid, <id; 翻译 成 下 面 一 对 语句 : 

if id, < id, goto -- - 

goto .-- 

我 们 可 以 用 一 条 语句 

if id, > id, goto _ | 


来 代替 它 ， 当 E 为 真 时 执行 后 继 代码 。 修 改 图 8-24 中 的 定义 ,使 之 生成 这 种 性 质 的 
代码 。 


8.10 试 编写 一 个 程序 ， 用 来 实现 图 8-23 中 给 出 的 控制 流 语句 的 语法 制导 定义 。 
8.11 编程 实现 8.6 节 中 给 出 的 回填 算法 。 
8.12 用 8.3 节 的 翻译 模式 ， 把 下 列 赋值 语句 翻译 成 三 地 址 码 : 

A[i,j] := B[i,jl + CILA[k,111] + D{i+j] 


* 8.13 在 某 些 像 PLH 这 样 的 语言 中 ， 人 允许 给 一 串 名 字 赋 予 一 串 属性 ， 而 且 允 许 声 明 互 相 骨 


套 、 下 面 是 这 一 问题 的 文法 : 


D ~ namelist attrlist 
| CD ) aterlist 
namelist > id , namelist 
| id 
attrlist > A attrlist 
| A 
A ~ decimal | fixed | float | real 


D>(Danrlist 的 含义 是 出 现在 括号 中 声明 中 提 到 的 所 有 名 字 都 具有 属性 attrlist, F 


CASS ERE. ER n 个 名 字 m 个 属性 的 声明 将 导致 符号 表 中 nm 条 信息 。 给 出 
这 个 文法 定义 的 声明 的 语法 制导 定义 。 
8.14 CHa, for 语句 的 格式 为 : 


for ( el ez 3 e3 ) stmt 
它 与 下 列 语句 含义 相同 : 
ens 


while ( e, ) { 
stmt; 
€35 


} 


试 构造 将 C 格式 的 for 语句 翻译 成 三 地 址 码 的 语法 制导 定义 。 
8.15 标准 Pascal 语言 中 ,语句 


for v := initial to final do stmt 


史 闻 代码 生成 331 


和 下 面 的 代码 序列 含义 相同 : 
begin 


tı := initial, t} := final, 
if ¢, < z, then begin 

Vv := th 

stmt 

while v # 1, do begin 


v i= succ(v); 
stmt 
end 
end 
end 
a) 考虑 下 面 的 Pascal 程序 : 


program forloop(input, output); 
var i, initial, final: integer; 
begin 
read(initial, final); 
for i:= initial to final do 
writeln(i) 
end. 
X initial = MAXINT-5, 而 final = MAXINT 时 ， 该 程序 将 做 什么 动作 ? 其 中 ， 
MAXINT 是 目标 机 器 允许 的 最 大 整数 。 


*# b) 试 构造 为 Pascal 的 for 语句 生成 三 地 址 码 的 语法 制导 定义 。 
参考 文献 注释 


UNCOL(Universal Compiler Oriented Language) 是 20 世 纪 S0 年 代 中 期 探索 的 一 种 通用 中 间 
语言 。 给 定 一 个 UNCOL 程 序 ，Strong et al. [1958] 的 报告 中 说 明了 怎样 利用 下 面 的 方式 来 构造 
编译 器 ， 即 将 相应 源 语言 的 前 端 程序 和 相应 目标 机 的 后 端 程序 连 在 一 起 。 报 告 中 给 出 的 自 举 技 
术 可 以 用 于 重 置 编译 器 的 目标 机 ( 见 11.2 节 )。Steel[1961] 中 含有 UNCOL 的 原始 提议 。 

可 重 置 目 标的 编译 器 含有 一 个 前 端 程序 ， 它 可 以 和 几 个 用 于 实现 相应 目标 机 语言 的 后 端 
程序 放 在 一 起 。Neliac 是 早期 带 有 可 重 置 目标 编译 器 ( Huskey, Halstead, and McArthur[1960] ) 
的 一 种 语言 ， 其 编译 器 就 是 用 该 语言 本 身 书 写 的 。 其 他 可 重 置 目 标 机 编译 器 可 以 参见 : 
Richards [1971] 中 的 BCPL 编 译 器 、Nori et al. [1981] 中 的 Pascal 编 译 器 及 Johnson[1979] 中 的 C 
编译 器 。Newey, Poole, and Waite[1972] 将 后 端 可 变 的 思想 应 用 在 宏 处 理 器 、 文 本 编辑 器 和 
Basic 编 译 器 中 。 

已 经 有 许多 种 方法 可 以 接近 UNCOL 在 m 种 机 器 上 实现 n 种 语言 的 理想 (通过 写 出 m 个 前 端 
程序 和 n 个 后 端 程序 ， 对 应 有 n x m 个 不 同 的 编译 器 )。 一 种 方法 是 在 一 个 现存 的 编译 器 上 为 一 
种 新 语言 增加 一 个 前 端 程序 。Feldman[1979b] 描 述 了 为 Johnson[1979] 和 Ritchie[1979] 的 C 编 译 
器 增加 了 Fortran 77 前 端 处 理 程序 。Davidson and Fraser[1984b] 、Leverett et al. [1980] 以 及 
Tanenbaum et al. [1983] 中 描述 了 容纳 多 个 前 端 和 后 端 程序 的 编译 器 组 织 的 设计 。 

Davidson and Fraser[1984b] 中 使 用 的 “并 ”和 “ 交 ” 抽 象 机 突出 了 中 间 表 示 中 允许 的 运算 


符 集 的 作用 。 交 机 器 的 指令 集 和 寻 址 方式 是 有 限 的 ， 因 此 生成 中 间 代 码 时 前 端 程序 不 必 做 许多 
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选择 。 并 机 器 提供 了 实现 源 级 结构 的 可 选 方法 。 因 为 所 有 这 些 可 选 方法 可 能 不 必 由 所 有 的 目标 
机 器 直接 实现 ， 所 以 机 器 的 更 丰富 的 指令 集 可 能 允许 对 目标 机 器 的 某 些 依赖 。 对 其 他 中 间 代 码 
如 语法 树 和 三 地 址 码 有 相似 的 评论 。Fraser and Hanson[1982] 讨 论 了 用 与 机 器 无 关 的 操作 访问 
运行 时 栈 的 表达 方式 。 

Randell and Russell[1964] 以 及 Grau，Hil, and Langmaack[1967] 对 Algol 60 的 实现 进行 了 详 
细 的 讨论 。Freiburghouse[1969] 讨 论 了 PL/I，Wirthf1971] 对 Pascal，Branquart et al. [1976] 对 
Algol 68 也 分 别 进行 了 讨论 。 

Minker and Minker[1980] 以 及 Giegerich and Wilhelm[1978] 中 讨论 了 怎样 为 布尔 表达 式 生成 

最 优 人 代码。 练习 8.15 选 自 Newey and Waite[1985]。 


第 9 章 代码 生成 


我 们 的 编译 器 模型 的 最 后 一 个 阶段 是 代码 生成 器 ， 它 将 源 程 序 的 中 间 表 示 作 为 输入 ， 并 产 
生 等 价 的 目标 程序 作为 输出 ， 如 图 9-1 所 示 。 不 管 代 码 生 成 的 前 面 是 否 有 代码 优化 阶段 ， 本 章 
给 出 的 代码 生成 技术 都 是 适用 的 。 代 码 优化 阶段 试图 将 中 间 表 示 转 换 成 一 种 可 以 生成 更 有 效率 
的 目标 代码 的 形式 。 代 码 优化 将 放 在 下 一 章 中 详细 讨论 。 





图 9-1 代码 生成 器 在 整个 编译 中 的 位 置 


对 代码 生成 器 的 要 求 是 严格 的 ， 它 输出 的 代码 必须 正确 而 且 质 量 高 。 质 量 高 的 含义 是 它 应 
该 有 效 地 利用 目标 机 器 的 资源 ， 此 外 ， 代 码 生成 器 本 身 也 应 该 高 效 地 运行 。 

从 理论 上 讲 ， 产 生 最 优 代码 的 问题 是 不 可 判定 的 。 在 实践 中 ， 能 够 产生 好 的 《而 不 必 是 最 
优 的 ) 代码 的 启发 式 技术 就 很 令 人 满意 了 。 之 所 以 选择 启发 式 技术 是 因为 仔细 设计 的 代码 生成 
算法 比 快速 设计 的 算法 产生 的 代码 快 好 几 倍 。 


9.1 代码 生成 器 设计 中 的 问题 


虽然 代码 生成 器 的 具体 细节 依赖 于 目标 语言 和 操作 系统 ， 但 很 多 问题 ( 如 存储 管理 、 指 令 
选择 、 寄 存 器 分 配 和 计算 次 序 等 ) 几乎 是 所 有 的 代码 生成 器 所 固有 的 问题 。 本 节 考 察 设计 各 种 
代码 生成 器 的 公共 问题 。 

9.1.1 代码 生成 器 的 输入 

代码 生成 器 的 输入 包括 前 端 产 生 的 源 程序 的 中 间 表 示 和 符号 表 信息 ， 符 号 表 信息 用 来 决定 
中 间 表 示 中 名 字 所 代表 的 数据 对 象 的 运行 时 地 址 。 

正如 我 们 在 前 一 章 中 指出 的 ， 中 间 语 言 有 多 种 选择 ， 包 括 线 性 表示 法 如 后 缀 式 )， 三 地 
址 表示 法 ( 如 四 元 式 )， 虚 拟 机 器 表示 法 〈 如 栈 式 机 器 代码 )， 图 形 表示 法 〈 如 语法 树 和 无 环 有 
向 图 )。 虽 然 本 章 的 算法 是 用 三 地 址 码 、 树 和 无 环 有 向 图 来 表述 的 ， 但 其 中 许多 技术 亦 可 用 于 
其 他 中 间 表 示 。 

假定 在 代码 生成 前 ， 编 译 器 的 前 端 已 经 将 源 程 序 扫描 、 分 析 和 翻译 成 为 足够 详细 的 中 间 表 
示 ， 这 样 ， 中 间 语 言 中 名 字 的 值 可 以 表示 为 目标 机 器 能 够 直接 操作 的 量 (位 、 整 数 、 实 数 、 指 
针 等 )。 还 假定 已 经 完成 了 必要 的 类 型 检查 ， 因 此 类 型 转换 算 符 已 插 在 需要 的 地 方 ， 而 且 明 显 
的 语义 错误 (如 试图 把 浮 点 数 作为 数组 下 标 ) 等 都 已 经 被 检测 出 来 了 了。 这样， 代码 生成 阶段 可 以 
认为 其 输入 中 没有 错误 。 在 有 些 编译 器 中 ， 这 种 语义 检查 和 代码 生成 一 起 完成 。 
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9.1.2 目标 程序 

代码 生成 器 的 输出 是 目标 程序 。 像 中 间 代 码 那 样 ， 输 出 的 形式 也 是 多 种 多 样 的 ， 绝 对 机 器 
语言 、 可 重 定位 的 机 器 语言 或 汇编 语言 。 

生成 绝对 机 器 语言 程序 作为 输出 的 好 处 是 ， 它 可 以 被 放 在 内 存 中 的 固定 地 方 并 且 立 即 被 执 
行 , 这样， 小 的 程序 可 以 被 迅速 地 编译 和 执行 。 一 些 面向 学 生 的 编译 器 ， 如 WATFIV 和 PL/C 等 ， 
就 产生 绝对 机 器 代码 。 

生成 可 重 定位 的 机 器 语言 程序 (目标 模块 ) 作 为 输出 允许 分 别 编译 子 程序 ， 一 组 可 重 定位 模 
块 可 以 由 连接 装配 器 连接 在 一 起 并 装 人 人 执行。 虽然 产生 可 重 定位 模块 必须 增加 额外 的 开销 来 连 
接 和 装配 ， 但 带 来 的 好 处 是 灵活 性 : 可 以 分 别 编译 子 程序 ， 而 且 可 以 从 目标 模块 中 调用 其 他 事 
先 编译 好 的 程序 模块 。 如 果 目 标 机 器 不 能 自动 处 理 重 定位 ， 编 译 器 必须 给 装配 器 提供 显 式 的 重 
定位 信息 ， 以 连接 分 别 编译 的 程序 段 。 

生成 汇编 语言 程序 作为 输出 可 以 使 代码 生成 的 过 程 变 得 容易 一 些 ， 我 们 可 以 产生 符号 指令 
并 利用 汇编 器 的 宏 功 能 来 帮助 生成 代码 ， 付 出 的 代价 是 代码 生成 后 的 汇编 步 又。 由 于 产生 汇编 
代码 并 不 重复 汇编 器 的 整个 工作 ， 因 此 这 也 是 一 种 合理 的 选择 ， 尤 其 对 于 内 存 小 、 编 译 必 须 分 
成 几 遍 的 情况 更 是 这 样 。 为 了 增加 可 读 性 ,我 们 在 本 章 中 用 汇编 代码 作为 目标 语言 。 但 是 必须 
强调 的 是 ， 只 要 可 以 从 符号 表 中 的 偏 移 或 其 他 信息 计算 出 地 址 ， 代 码 生成 器 就 可 以 像 产生 符号 
地 址 一 样 容易 地 为 名 字 产 生 可 重 定位 的 或 绝对 的 地 址 。 
9.1.3 存储 管理 

把 源 程 序 中 的 名 字 映 射 成 运行 时 数据 对 象 的 地 址 是 由 前 端 和 代码 生成 器 共 辣 完成 的 。 在 上 
一 章 中 ， 我 们 假定 三 地 址 语句 中 的 名 字 是 指 符 号 表 中 该 名 字 的 表 项 。 在 8.2 节 ， 符 号 表 表 项 是 
在 检查 过 程 中 的 声明 时 建立 的 , 声明 的 类 型 决定 了 被 声明 名 字 的 宽度 , 即 所 需 存储 空间 的 大 小 。 
从 符号 表 信 息 可 以 得 到 名 字 在 过 程 数 据 区 的 相对 地 址 。 在 9.3 节 ， 我 们 将 描述 数据 区 的 静态 和 
栈 式 存 储 分 配 的 实现 ， 并 说 明 如 何 将 中 间 表 示 中 的 名 字 转 换 为 目标 代码 中 的 地 址 。 

如 果 要 生成 机 器 代码 ， 必 须 将 三 地 址 语句 的 标号 转变 成 指令 的 地 址 。 该 过 程 与 8.6 节 的 回 
填 技术 类 似 。 假 定 标 号 是 指 四 元 式 数 组 的 四 元 式 编号 ， 当 依次 扫描 四 元 式 时 ， 可 以 推断 出 为 该 
四 元 式 生 成 的 第 一 条 指令 地 址 ， 这 只 要 维护 一 个 计数 器 ， 记 住 到 目前 为 止 产生 的 指令 已 用 了 多 
少 个 字 就 可 以 了 。 该 计数 可 以 用 一 个 额外 的 域 保存 在 四 元 式 数 组 中 ， 因 而 如 果 碰 到 j: goto i 
这 样 的 引用 ， 并 且 i 小 于 j, j 是 当前 四 元 式 的 编号 ， 就 可 以 直接 产生 跳 转 指令 ， 目 标 地 址 等 于 
第 i 个 四 元 式 的 第 一 条 指令 的 机 器 地 址 。 但 是 如 果 是 向 前 跳 ， 即 i 大 于 j， 则 必须 把 为 四 元 式 j 
生成 的 第 一 条 机 器 指令 的 地 址 记 在 与 四 元 式 i 相关 联 的 列表 中 ， 然 后 ， 当 处 理 到 四 元 式 i 时 ， 
为 所 有 向 前 跳 转 到 i 的 指令 回填 上 适当 的 机 器 地 址 。 
9.1.4 指令 选择 

目标 机 器 指令 集 的 性 质 决定 了 指令 选择 的 难 易 程 度 ， 指 令 集 的 一 致 性 和 完整 性 是 重要 的 因 
素 。 例 如 ， 如 果 目 标 机 器 不 能 以 一 致 的 方式 支持 各 种 数据 类 型 ， 那 么 每 种 例外 都 需要 专门 的 
处 理 。 

指令 速度 和 机 器 的 特点 也 是 重要 因素 。 如 果 不 考虑 目标 程序 的 效率 ， 则 指令 的 选择 是 直 截 
了 当 的 。 对 每 一 类 三 地 址 语句 ， 可 以 设计 它 的 代码 骨架 ， 它 将 给 出 为 这 种 语句 生成 的 目标 代码 
的 轮廓 。 例 如 ， 若 x、y 和 z 都 采用 静态 存储 分 配 ， 则 可 以 将 每 个 形 如 x := y+z 的 三 地 址 语句 翻 
译 成 如 下 的 代码 序列 : 
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MOV y,RO /+ 将 y 装 人 寄存 器 RO 中 «/ 
ADD z,RO /* 将 z 加 到 RO 上 #7 
MOV RO,x /«* 将 RO0 存 人 x 中 4 / 


不 幸 的 是 ， 这 种 逐条 语句 的 代码 生成 方法 常常 产生 质量 低劣 的 代码 。 例 如 ， 语 句 序列 


a := b+c 
d := ar+ e 


将 被 翻译 成 

MOV b,RO 

ADD c,RO 

MOV RO,a 

MOV a,RO 

ADD e,RO 

MOV RO,G 
其 中 ,第 四 条 指令 是 多 余 的 ， 如 果 以 后 不 再 使 用 a 的 话 ， 那 么 第 三 条 指令 也 是 多 余 的 。 

所 生成 代码 的 质量 取决 于 它 的 执行 速度 和 长 度 。 指 令 集 丰富 的 目标 机 器 可 能 提供 几 种 办 法 
实现 某 一 操作 ， 由 于 不 同 实现 方法 的 开销 可 能 大 不 一 样 ， 因 此 中 间 代 码 的 简单 的 翻译 会 产生 正 
确 但 效率 可 能 无 法 接受 的 目标 代码 。 例 如 ， 若 目标 机 器 有 加 ] 指 令 (INC)， 那 么 三 地 址 语句 a := 
a+1 的 高 效 实现 是 一 条 指令 INC a， 而 不 是 下 面 的 指令 序列 : 

MOV a, RO 

ADD #1, RO 

MOV R0, a 
虽然 指令 速度 对 设计 好 的 代码 序列 是 需要 的 ， 但 往往 很 难 获得 精确 的 时 间 信 息 。 要 确定 哪个 指 
令 序列 对 给 定 的 三 地 址 结构 是 最 优 的 ， 可 能 还 要 用 到 该 结构 出 现 的 上 下 文 知识 。9.12 节 将 讨论 
构造 指令 选择 器 的 工具 。 

9.1.5 寄存 器 分 配 

操作 数 在 寄存 器 中 的 指令 通常 要 比 操作 数 在 内 存 中 的 指令 短 一 些 , 执行 也 要 快 一 些 。 因 此 ， 
充分 利用 寄存 器 对 生成 好 的 代码 尤其 重要 。 寄 存 器 的 使 用 可 以 分 成 两 个 子 问题 : 

1. 在 寄 寿 器 分 配 期 间 ， 在 程序 的 某 一 点 选择 要 驻 留 在 寄存 器 中 的 变量 集 。 

2. 在 随后 的 寄存 器 指派 阶段 ， 挑 出 变量 将 要 驻 留 的 具体 寄存 器 。 

选择 最 优 的 寄存 器 指派 方案 非常 困难 ， 这 个 问题 是 NP 完全 的 。 该 问题 还 会 进一步 复杂 化 ， 
因为 目标 机 器 的 硬件 和 (或 ) 操作 系统 可 能 要 求 寄 存 器 的 使 用 遵守 一 些 约定 。 

某 些 机 器 要 求 对 某 些 操作 数 和 结果 使 用 寄存 器 对 ( 偶 寄存 器 和 下 一 个 奇 寄存 器 )。 例 如 ， 
在 IBM System/370 机 器 上 ， 整 数 乘 和 整数 除 就 要 使 用 寄存 器 对 。 乘 法 指令 的 形式 是 ; 


M x, y 
其 中 ，x 是 被 乘 数 ， 是 偶 / 奇 寄存 器 对 的 偶 寄存 器 ， 被 乘 数 的 值 从 该 对 的 奇 寄存 器 中 取 ; 乘 数 y 
是 单个 寄存 器 。 积 占据 整个 偶 / 奇 寄存 器 对 。 

除法 指令 的 形式 是 : 

D xX, y 


其 中 ，64 位 的 被 除数 占据 一 个 偶 / 奇 寄存 器 对 ， 它 的 偶 寄存 器 是 x，y 代 表 除 数 。 除 完 以 后 ， 偶 
寄存 器 保存 余数 ， 奇 寄存 器 保存 商 。 
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现在 考虑 图 9-2 中 的 两 个 三 地 址 码 序 t := a+b t :=a+b 
列 ， 它 们 仅 有 的 区 别 是 第 二 条 语句 的 操作 t = : ; < i - t ， j 
符 不 同 ， 其 最 短 汇 编 代 码 序 列 在 图 9-3 中 
给 出 。 » p) 

Ri 代表 寄存 器 i。L, ST 和 a 分 别 代 图 9-2 两 个 三 地 址 码 序列 
REA, FAD. SRDA? RO, 32 把 除 
数 移 人 R1， 并 清 RO， 使 得 所 有 位 都 等 于 A 1 A go 
它 的 符号 位 。 注 意 ， 装 入 a 的 寄存 器 的 最 M RO, Cc A RO, ¢ 
佳 选 择 依赖 于 t 以 后 还 有 什么 用 。9.7 节 D oa SRDA RO, 32 
将 讨论 寄存 器 的 分 配 策略 。 ST Ri, t 
9.1.6 计算 次 序 的 选择 a) b) 





计算 执行 的 次 序 会 影响 目标 代码 的 效 - 
率 。 我 们 将 看 到 ， 某 些 计算 次 序 比 其 他 次 图 9-3 最 优 的 机 器 代码 序列 
序 需要 较 少 的 寄存 器 来 保存 中 间 结 果 。 选 择 最 佳 次 序 也 是 一 个 NP 完全 问题 。 开 始 ， 为 避免 该 
问题 ， 我 们 只 讨论 按照 中 间 代 码 生 成 器 产生 的 三 地 址 语句 的 次 序 来 产生 目标 代码 。 

9.1.7 代码 生成 方法 

毋庸 置疑 ， 评 判 代码 生成 器 的 最 重要 准则 是 产生 正确 的 代码 。 代 码 生成 器 可 能 面临 的 特殊 
情况 的 数量 使 得 正确 性 特别 重要 。 除 此 以 外 ， 易 于 实现 、 测 试 和 维护 也 是 重要 的 设计 目标 。 

9.6 节 中 包括 一 个 简单 的 代码 生成 算法 ， 它 使 用 操作 数 后 续 使 用 情况 的 信息 为 寄存 器 机 器 
产生 代码 。 该 算法 依次 考虑 每 个 语句 ， 并 将 操作 数 尽 可 能 长 时 间 地 保持 在 寄存 器 中 。 这 种 算法 
的 输出 可 以 使 用 9.9 节 讨论 的 完了 筷 优 化 技术 进行 改进 ， 

9.7 节 通过 考虑 中 间 代 码 的 控制 流 ， 讨 论 了 寄存 器 的 较 优 使 用 技术 ， 它 强调 把 寄存 器 分 配 
给 内 循环 中 频繁 使 用 的 变量 。 

9.10 节 和 9.11 节 给 出 了 一 些 树 制导 代码 选择 技术 ， 它 们 适用 于 构造 可 重 置 目 标的 代码 生成 
器 。 可 移植 的 C 编 译 器 PCC 就 使 用 这 种 代码 生成 器 ， 并 已 移植 到 了 多 种 机 器 上 。UNIX 操 作 系 
统 可 以 运行 在 很 多 种 机 器 上 就 归功 于 PCC 的 可 移植 性 。9.12 节 将 说 明 怎 样 将 代码 生成 器 看 作 
是 重 写 树 (tree-rewriting ) 的 过 程 。 


9.2 目标 机 器 


熟悉 目标 机 器 及 其 指令 集 是 设计 一 个 好 的 代码 生成 器 的 先决 条 件 。 但 是 ， 在 代码 生成 的 一 
般 性 讨论 中 ， 不 可 能 对 目标 机 器 的 细节 描述 到 足够 详细 的 程度 ， 因 而 难以 对 该 目标 机 器 的 一 个 
完整 的 语言 生成 好 的 代码 。 本 章 中 ,我们 将 采用 可 作为 几 种 微型 机 代表 的 寄存 器 机 器 作为 目标 
机 器 ， 不 过 ， 本 章 中 提出 的 一 些 代 码 生 成 技术 亦 可 用 于 许多 其 他 类 型 的 机 器 。 

我 们 的 目标 机 器 是 一 个 字 节 可 寻 址 机 器 ，4 字 节 组 成 一 个 字 ， 并 有 n 个 通用 寄存 器 RO, 
R1，…，Rn-1。 它 有 如 下 两 地 址 指令 形式 : 


op source, destination 


其 中 op 是 操作 码 source 和 destination 称 为 源 和 目的 ， 是 数据 域 。 该 机 有 如 下 的 操作 码 : 
MOV (将 源 移 到 目的 中 ) 


© Shift Right Double Arithmetic, 
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ADD 《将 源 加 到 目的 中 ) 
SUB (在 日 的 中 减 去 源 ) 


其 他 指令 将 在 需要 时 再 介绍 。 

由 于 源 和 目的 域 不 足以 保存 内 存 地址 ， 所 以 这 些 域 的 某 些 位 用 来 指明 一 条 指令 之 后 的 包含 
操作 数 和 (或 ) 地 址 的 那些 字 。 一 条 指令 的 源 和 目的 是 通过 将 寄存 器 和 带 有 地 址 模式 的 内 存单 元 
结合 起 来 确定 的 。 在 下 面 的 描述 中 ，contents(a) 表 示 由 a 代表 的 寄存 器 或 内 存单 元 的 内 容 。 

地 址 模式 和 它们 的 汇编 语言 形式 及 相关 的 开销 如 下 所 示 : 


地 址 模式 汇编 形式 地 址 增加 的 开销 
绝对 地 址 M M 1 
寄存 器 R R 0 
索引 c(R) c + contents (R) 1 
间接 寄存 器 *R contents (R) 0 
间接 索引 *c(R) contents(c + contents (R)) I 
当 用 内 存 地 址 M 或 寄存 器 R 作 为 源 或 目的 时 ， 它 们 代表 自身 。 例 如 ， 指 令 


MOV RO,M 


把 寄存 器 R0 的 内 容 存 人 内 存单 元 MK 中。 
从 寄存 器 R 中 的 值 的 地 址 偏 移 c 可 写成 c(R) 。 那 么 ， 指 令 
MOV 4(RO),M 

把 值 
contents (4 + contents (R0)) 


存 人 内 存单 元 M 中 。 
后 面 的 两 个 间接 模式 由 前 级 * 表 示 。 这 样 ， 指 令 
MOV +*4(RO),M 
将 值 
contents (contents (4 + contents (RO))) 
存 人 内 存单 元 M 中 。 
最 后 一 种 地 址 模式 允许 源 是 一 个 常数 : 
地 址 模式 汇编 形式 常数 增加 的 开销 
字面 常数 #c C 1 
因此 ， 指 令 


MOV #1,R0 


把 常数 1 保存 在 寄存 器 RO 中 。 
指令 开销 

我 们 把 与 源 地 址 模式 和 目的 地 址 模式 相关 的 开销 (在 上 面 的 地 址 模式 表 中 表示 为 增加 的 开 
销 ) 再 加 上 1 作为 一 条 指令 的 开销 ， 这 个 开销 与 指令 的 长 度 (以 字 计算 ) 相 对 应 。 寄 存 器 地 址 模式 
的 开销 是 0， 而 内 存单 元 模式 与 常数 模式 的 开销 是 1， 因 为 这 些 操作 数 必须 和 指令 存在 一 起 。 

如 果 空 间 是 至 关 重 要 的 ,我们 应 该 使 指令 的 长 度 极 小 化 。 这 样 做 有 一 个 额外 的 重要 好 处 ， 
对 于 大 多 数 机 器 和 大 多 数 指令 而 言 ， 从 内 存 取 指令 的 时 间 要 超过 执行 指令 的 时 间 ， 这 样 ， 极 小 
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化 指令 的 长 度 也 使 得 指令 的 执行 时 间 趋 于 最 小 。? 下 面 是 几 个 例子 : 


1. 指令 MOV R0，R1 将 寄存 器 R0 的 内 容 复制 到 寄存 器 R1 中 。 这 条 指令 的 开销 是 1!， 因 为 它 
仅 占 内 存 中 的 一 个 字 。 

2. 存储 指令 MOV _R5 ，M 将 寄存 器 R5 的 内 容 复 制 到 内 存单 元 M 中 。 这 条 指令 的 开销 是 2， 因 
为 内 存单 元 M 的 地 址 存放 在 该 指令 之 后 的 一 个 字 中 。 

3. 指令 ADD 六 ，R3 将 寄存 器 R3 的 内 容 增加 1。 这 条 指令 的 开销 是 2， 因 为 常数 1 必须 出 现 
在 指令 后 面 的 下 一 个 字 中 。 

4. 指令 SUB 4 (R0) ，*12 (R1) 将 值 

contents ( contents ( 12 + contents ( R1 ) ) ) - contents (4 + contents (RO )) 
存 人 目的 地 址 *12 (R1) 中 。 这 条 指令 的 开销 是 3， 因 为 常数 4 和 12 要 存放 在 指令 之 后 的 下 两 个 
字 中 。 

考虑 为 形 如 a := b + c 的 三 地 址 语句 会 产生 什么 样 的 代码 ， 可 以 看 出 为 上 述 机 器 产生 代码 
的 一 些 困难 之 处 ， 其 中 名 字 b 和 c 是 在 由 这 两 个 名 字 表 示 的 不 同 存储 单元 中 的 简单 变量 。 这 
条 语句 可 以 通过 许多 不 同 的 指令 序列 来 实现 ， 下 面 是 几 个 例子 : 

1. MOV b, RO 


ADD c, RO 开销 
MOV RO, a 


2. MOV b, a _ 
ADD C, a 开销 = 6 


t 


6 


假定 R0、R1、R2 中 分 别 存放 了 a、b 和 c 的 地 址 ， 我 们 可 以 使 用 如 下 指令 序列 : 


3. MOV #R1, #RO 
ADD #*R2, *RO 开销 = 


假定 R1 和 R2 中 分 别 包含 b 和 c 的 值 ， 并 且 b 的 值 在 这 个 赋值 以 后 不 再 需要 ， 则 可 以 使 用 如 下 指 
令 序列 : 


4. ADD R2, RI _ 
MOV Ri, a 开销 = 3 


可 以 看 出 ， 要 为 这 种 机 器 生成 好 的 代码 ， 必 须 有 效 地 使 用 它 的 寻 址 能 力 。 另 外 ， 如 果 一 个 
名 字 在 不 久 后 将 被 引用 ， 则 应 尽 可 能 地 将 该 名 字 的 左 值 或 右 值 保 存在 寄存 器 中 。 


3 运行 时 存储 管理 


正如 在 第 7 章 中 所 看 到 的 ， 语 言 中 过 程 的 语义 决定 了 执行 期 间 名 字 如 何 与 存储 空间 相 联系 。 
过 程 的 一 次 执行 所 需要 的 信息 存放 在 一 个 称 为 活动 记录 的 存储 块 中 ， 过 程 中 的 局 部 名 字 的 存储 
空间 也 在 活动 记录 中 。 

在 本 节 中 ， 我 们 讨论 运行 时 管理 活动 记录 应 生成 哪些 代码 。 7 3 节 给 出 了 两 个 标准 的 存储 
分 配 策略 ， 即 静态 分 配 和 栈 式 分 配 。 对 于 静态 分 配 ， 内 存 中 活动 记录 的 位 置 在 编译 时 便 已 确定 。 
对 于 栈 式 分 配 ， 过 程 的 每 次 执行 都 将 在 栈 顶 压 人 一 个 新 的 活动 记录 ， 活 动 结束 时 将 该 记录 弹出 


O 开销 准则 必须 是 有 意义 的 而 不 是 实际 的 。 为 一 条 指令 分 配 整个 字 可 以 简化 确定 开销 的 准则 。 对 时 间 的 更 准 
确 估 计 将 考虑 一 条 指令 是 否 需要 将 操作 数 的 值 及 其 地 址 〔 用 该 指令 找到 的 ) 从 内 存 装 人 。 
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栈 。 在 本 章 后 面 ， 我 们 将 考虑 一 个 过 程 的 目标 代码 如 何 引用 活动 记录 中 的 数据 对 象 。 
正如 我 们 在 7.2 节 所 看 到 的 ， 一 个 过 程 的 活动 记录 包含 存放 下 列 信息 的 域 : 参数 、 结 果 、 
机 器 状态 信息 、 局 部 数据 、 临 时 变量 等 等 。 本 节 ， 我 们 将 利用 保存 返回 地 址 的 机 器 状态 域 和 局 
部 数据 域 来 前 述 分 配 策略 。 假 定 其 他 域 的 处 理 如 第 7 章 所 述 。 
由 于 运行 时 活动 记录 的 分 配 和 释放 是 作为 过 程 调用 和 返回 序列 的 一 部 分 ， 我 们 集中 讨论 下 
面 的 三 地 址 语句 : 
1. call (调用 )。 
2. return (返回 )。 
3. nalt (FÆ) 
4. action (动作 )， 其 他 语句 的 占 位 符 。 
例如 ， 图 9-4 中 过 程 c 和 p 的 三 地 址 码 只 包含 这 几 种 语句 。 活 动 记录 的 大 小 和 布局 是 通过 符 
号 表 中 的 名 字 信 息 传递 给 代码 生成 器 的 。 为 清晰 起 见 ， 我 们 在 图 9-4 中 给 出 活动 记录 的 布局 而 
不 是 符号 表 的 表 项 。 
c 的 活动 记录 Dp 的 活动 记录 
三 地 址 码 (64 字 节 ) (88 字 节 ) 
/< 的 代码 +7 0: 0: 
action, 8: 4: 
call p 


action, 


/* pR #7 


actions sa 


return 





图 9-4 代码 生成 器 的 输入 
如 7.2 节 所 述 ， 我 们 假定 运行 时 内 存 被 划分 成 代码 区 、 静 态 数据 区 和 一 个 栈 区 (这 里 不 用 额 
外 的 堆 区 )。 
9.3.1 静态 分 配 
考虑 实现 静态 分 配 所 需 的 代码 。 一 条 中 间 代 码 的 ca1l1 语 句 由 两 条 目标 机 器 指令 来 实现 。 
一 条 MOV 指 令 保存 返回 地 址 ， 而 另 一 条 GoOTO 语 句 将 控制 转移 到 被 调用 过 程 的 目标 代码 : 


MOV  #here +20, callee.static_area 
GOTO callee.code_area 


属性 callee.static_area 和 callee.code_area 是 常数 ,分别 指向 被 调用 过 程 活动 记录 的 地 址 及 其 第 
一 条 指令 。 在 MOV 指令 中 源 #here + 20 是 一 个 字面 常量 ， 作 为 返回 地 址 ; 它 是 紧 跟 在 coro 
指令 之 后 的 那 条 指令 的 地 址 。( 从 9.2 节 的 讨论 可 知 ， 三 个 常数 加 上 两 条 调用 指令 的 开销 为 5 个 字 
即 20 个 字 节 。) 


过 程 的 代码 以 一 条 返回 到 调用 过 程 的 指令 结束 。 另 外 ， 因 为 第 一 个 过 程 没有 调用 者 ， 因 此 
最 后 的 指令 是 HALT， 它 将 控制 返回 到 操作 系统 。 从 过 程 callee 的 返回 由 
GOTO «callee.static_area 


来 实现 。 它 将 控制 转移 到 存放 在 活动 记录 开始 位 置 的 返回 地 址 处 。 
例 9.1 ”图 9-5 的 代码 是 由 图 9-4 的 过 程 = 和 过 程 p 创建 的 。 我 们 用 伪 指 令 ACTION 来 实现 
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语句 action。 它 代表 与 本 次 讨论 无 关 的 三 地 址 码 。 另 外 ， 我 们 假定 过 程 的 代码 分 别 从 地 址 
100 和 200 开 始 ， 而 且 每 条 ACTION 指令 占用 20 个 字 节 。 过 程 的 活动 记录 分 别 从 地 址 300 和 地 址 
364 开 始 静 态 分 配 。 

从 地 址 100 处 开始 的 指令 实现 第 一 个 过 程 c 的 语句 : 


action,;; call p; action,; halt 


因此 ， 程 序 是 从 地 址 100 处 的 ACTION, 指令 开始 执行 的 ， 地 址 120 处 的 Mov 指令 将 返回 地 址 
140 存 人 机 器 状态 域 中 ， 即 存 人 过 程 p 的 活动 记录 的 第 一 个 字 中 。 地 址 132 处 的 GOTO 指令 将 控 
制 转 移 到 被 调用 过 程 的 目标 代码 。 









/* c 的 代码 #7/ 
100: ACTION, 
120: MOV #140, 364 /« 保存 返回 地 址 140 */ 
132: GOTO 200 /* 调用 p */ 
140: ACTION, 
160: HALT 
A# 了 的 代码 */ 
200: ACTION, 





: GOTO +364 7» 返回 到 保存 在 364 中 的 地 址 #/ 










300~363 保 存 c 的 活动 记录 */ 
300: A# 返回 地 址 */ 
: c 的 局 部 数据 #/ 


364~451 保 存 p 的 活动 记录 */ 
364: /* 返回 地 址 */ 
: P 的 局 部 数据 */ 






图 9-5 图 9-4 中 输入 的 目标 代码 


由 于 140 通 过 以 上 调用 序列 已 存放 到 地 址 364 中 ， 从 而 当 执行 地 址 220 的 coro 语句 时 ， 
*364 表 示 140。 因 此 控制 将 返回 到 地 址 140， 恢 复 调用 过 程 c 的 执行 。 口 
9.3.2 HDA 

通过 对 活动 记录 的 存储 单元 使 用 相对 地 址 ， 可 以 将 静态 分 配 改 造成 栈 式 分 配 。 一 个 过 程 的 


活动 记录 位 置 直到 运行 时 才能 知道 。 在 栈 式 分 配 中 ， 该 位 置 通常 存放 在 寄存 器 中 ， 因 此 活动 记 


录 中 的 字 可 以 通过 相对 于 该 寄存 器 中 值 的 偏 移 来 访问 。 目 标 机 器 的 索引 地 址 模式 可 以 很 方便 地 
实现 该 目的 。 

活动 记录 中 的 相对 地 址 可 以 看 成 该 活动 记录 中 对 任意 已 知 位 置 的 偏 移 ， 如 我 们 在 7.3 节 中 
所 见 到 的 那样 。 为 方便 起 见 ， 我 们 将 通过 在 寄存 器 SP 中 保存 一 个 指向 栈 顶 活动 记录 开始 位 置 
的 指针 而 使 用 正 的 偏 移 。 当 发 生 过 程 调 用 时 ， 调 用 过 程 给 SP 一 个 增 量 ， 并 将 控制 转移 到 被 调 
用 过 程 。 当 控制 返回 到 调用 过 程 时 ， 再 将 SP 减 去 原来 的 增 量 ， 从 而 释放 了 被 调用 过 程 的 活动 
记录 。® 

第 一 个 过 程 的 代码 通过 将 SP 置 为 内 存 中 栈 区 的 开始 位 置 来 初始 化 栈 : 


日 ”对 于 负 的 偏 移 ， 我们 可 以 社 sP 指 向 栈 的 末尾 并 让 被 调用 过 程 增 加 sP。 
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MOV #stackstart, SP /A# 初始 化 栈 #7 
第 一 个 过 程 的 代码 
HALT Za 终止 过 程 的 执行 */ 


过 程 调用 序列 给 SP 一 个 增 量 ， 并 保存 返回 地 址 ， 将 控制 转移 到 被 调用 过 程 。 
ADD #caller.recordsize, SP 


MOV #here +16, *5P Z* 保存 返回 地 址 */ 
GOTO callee.code_area 


属性 calier.recordsize 表 示 活 动 记录 的 大 小 ， 因 此 ADD 指 令 使 SP 指向 下 一 个 活动 记录 的 开始 


位 置 。MOV 指 令 的 源 #here+16 是 跟 在 GoTO 之 后 的 指令 的 地 址 ， 它 被 存放 在 SP 所 指向 的 地 址 中 。 


返回 序列 包含 两 部 分 。 被 调用 过 程 采用 如 下 指令 将 控制 返回 到 调用 过 程 : 
GOTO #0(SP) /* 返回 到 调用 过 程 #/ 


在 GOTO 语 句 中 使 用 *0 (SP) 的 原因 是 我 们 需要 二 级 间接 地 址 : 0 (sP) 是 活动 记录 第 一 个 字 的 
地 址 ， 而 *0 (SP) 是 保存 在 0 (SP) 中 的 返回 地 址 。 


返回 序列 的 第 二 部 分 在 调用 过 程 中 ， 它 减 去 SP， 因 而 将 SP 恢复 到 以 前 的 值 。 也 就 是 说 ， 


减 去 以 后 SP 将 指向 调用 者 活动 记录 的 开始 : 





三 地 址 码 
SUB #caller.recordsize, SP /* s 的 代码 */ 
调用 序列 的 更 深入 的 讨论 以 及 调用 过 程 和 被 调用 过 程 的 call q 

折衷 参见 7.3 节 。 action, 

halt 
例 9.2 图 9-6 中 的 程序 是 7.1 节 所 讨论 的 Pascal 程序 的 三 /* p 的 代码 #7 

地 址 码 ， 过 程 a 是 递归 的 ， 因 而 在 同一 时 刻 可 能 有 aq 的 多 个 活 serions 

动 记录 存活 。 7* q 的 代码 *7 
假设 过 程 s、p 和 a 的 活动 记录 的 大 小 已 在 编译 时 分 别 ran 

确定 为 ssize. psize 和 gsize。 每 个 活动 记录 的 第 一 个 字 存 放 actions 

返回 地 址 。 三 个 过 程 的 代码 分 别 从 地 址 100、200、300 开 始 ， call q 

并 且 栈 从 地 址 600 开 始 。 图 9-6 中 程序 的 目标 代码 如 下 ; call g 

ya SHRB wy return 
100: MOV #600, SP sa 初始 化 栈 #/ 图 9-6 说 明 栈 式 分 配 的 三 地 址 码 
108: ACTION, 


128: ADD #ssize, SP /A* 调用 序列 开始 «7 
136: MOV #152, +SP /+# 压 人 返回 地 址 «7 


144: GoTO 300 /* 调用 gq */ 
152: SUB #ssize, SP A# 恢复 SP «/ 
160: ACTION, 
180: HALT 
/A# Dp 的 代码 #/ 
200: ACTION; 
220: GOTO #0(SP) /* 返回 sy 
/* qq 的 代码 =/ 
300: ACTION, /# 条 件 转移 到 456 */ 


320: ADD #qsize, SP 

328: MOV #344, +SP /* 压 人 返回 地 址 wy 
336: GOTO 200 /* 调用 p = 

344: SUB #qsize, SP 


un 
~ 





352: ACTION; 

372: ADD #qsize, SP 

380: MOV #396, *SP /* 压 人 返回 地 址 «7 
388: GOTO 300 7+ 调用 q */ 

396: SUB #qsize, SP 

404: ACTION, 

424: ADD #qsize, SP 

432: MOV #448, *SP /* 压 人 返回 地 址 #/ 





440: GOTO 300 /* 调用 gq */ 

448: SUB #qsize, SP 

456: GOTO #0(SP) 7* 返回 #/ 

600: A» 栈 从 此 处 开始 #7 


我 们 假设 ACTION, 中 包含 一 个 条 件 转 移 指 令 转 移 到 a 的 返回 地 址 456; 否则 递归 过 程 g 将 
永远 递归 调用 下 去 。 在 下 面 的 例子 中 ， 我 们 将 考虑 该 程序 的 执行 ，q 的 第 一 次 调用 没有 立即 返 
回 ， 但 接 下 来 的 所 有 调用 则 不 然 。 

如 果 ssize, psize 和 qsize 分 别 为 20、40 和 60， 则 SP 通过 地 址 100 的 第 一 条 指令 初始 化 为 
600， 即 栈 的 开始 地 址 。 由 于 ssize 是 20， 因 而 在 控制 从 s 转移 到 q Ht, SP 的 值 为 620。 接 下 
KX, 4 G 调用 p 时 ， 地 址 320 处 的 指令 将 sp 增加 到 680， 即 p 的 活动 记录 的 开始 ， 当 控制 返 
回 到 a 时 ，SP 又 变 成 620。 如 果 下 两 次 对 a 的 递归 调用 是 立即 返回 的 ， 则 这 次 执行 期 间 SP 的 
最 大 值 是 680。 但 要 注意 ， 最 后 一 个 被 使 用 的 栈 地 址 是 739， 因 为 a 的 活动 记录 从 680 开 始 并 占 
用 了 60 个 字 节 。 口 


9.3.3 ”名字 的 运行 地 址 

过 程 的 存储 分 配 策 略 和 活动 记录 中 局 部 数据 的 安排 决定 了 如 何 访问 名 字 的 存储 单元 。 在 第 
8 章 ， 我 们 曾 假定 三 地 址 语句 中 的 名 字 是 一 个 指向 符号 表 中 对 应 该 名 字 表 项 的 指针 ， 这 种 方法 
有 个 重要 的 好 处 : 使 编译 器 的 可 移植 性 更 强 ， 因 为 即使 编译 器 被 转移 到 另 一 个 不 同 的 机 器 上 ， 
而 这 种 机 器 需要 不 同 的 运行 组 织 (如 display 表 可 放 在 寄存 器 中 而 不 是 内 存 中 )， 前 端 也 无 须 改 
变 。 另 一 方面 ， 在 生成 中 间 代 码 时 产生 明确 的 访问 序列 在 优化 编译 器 时 也 大 有 好 处 ， 因 为 它 使 
得 优化 器 可 以 利用 在 简单 的 三 地 址 语句 中 甚至 根本 看 不 到 的 细节 。 

无 论 哪 种 情况 ， 名 字 最 终 必须 由 访问 存储 地 址 的 代码 来 取代 。 我 们 考虑 简单 的 三 地 址 语句 
x := 0 的 一 些 细节 。 处 理 完 过 程 的 声明 以 后 ,假设 符号 表 中 x 的 表 项 包含 一 个 x 的 相对 地 址 12， 
首先 , 假定 x 是 在 一 个 从 static 开始 的 静态 分 配 的 区 域 中 , 那么 x 的 实际 运行 地 址 是 static + 12。 
尽管 编译 器 可 在 编译 时 确定 static + 12 的 值 ， 但 是 当 存 取 名 字 的 中 间 代 码 生 成 的 时 候 ， 可 能 还 
不 知道 静态 区 域 的 位 置 。 在 这 种 情况 下 ， 它 必须 生成 三 地 址 码 以 “计算 ”siatic + 12， 该 计算 
将 在 代码 生成 阶段 进行 ， 或 者 在 程序 运行 前 由 装配 器 执行 。 因 此 ， 赋 值 语 句 x := 0 将 被 翻译 成 

static[12] := 0 
如 果 静 态 区 域 从 地 址 100 开 始 ， 则 该 语句 的 目标 代码 为 

MOV #0, 112 

另 一 方面 ， 假 定 我 们 采用 类 Pascal 语言 ， 并 且 如 7.4 节 所 讨论 的 ， 用 display 表 存 取 非 局 部 
名 字 ， 又 假定 display 表 存 放 在 寄存 器 中 ， 而 且 x 是 一 个 活动 过 程 的 局 部 变量 ， 该 活动 过 程 的 
display 表 指 针 放 在 寄存 器 R3 中 。 那 么 ， 我 们 可 以 将 语句 x := 0 翻译 成 如 下 的 三 地 址 语句 : 


tı := 12 + R3 
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#t,; := 0 
其 中 ，t: 中 存放 的 是 x 的 地 址 。 该 序列 可 以 用 下 面 的 一 条 机 器 指令 实现 : 
MOV #0, 12(R3) 
注意 寄存 器 R3 中 的 值 不 能 在 编译 时 确定 。 
94 基本 块 和 流 图 


三 地 址 语句 的 一 种 图 形 表示 叫做 流 图 ， 即 使 该 图 并 未 由 代码 生成 算法 明显 地 构造 出 来 ， 它 
对 理解 代码 生成 算法 也 非常 有 用 。 流 图 中 的 节点 表示 计算 ， 边 表示 控制 流 。 在 第 10 章 ， 我 们 将 
充分 利用 流 图 作为 从 中 间 代 码 收集 信息 的 工具 。 某 些 寄存 器 分 配 算法 使 用 流 图 来 寻找 消耗 程序 
大 部 分 运行 时 间 的 内 循环 。 
9.4.1 基本 块 

基本 块 是 一 个 连续 的 语句 序列 ， 控 制 流 从 它 的 开始 进入 ， 并 从 它 的 末尾 离开 ， 不 可 能 有 中 
断 或 分 支 ( 末尾 除外 )。 下 面 的 三 地 址 语句 序列 就 形成 一 个 基本 块 : 


ti := ay a 528 
t2 = a# b 
t3 := 2 * t, (9-1) 
t4 c= tı + ty 
ts := bb 
te := ty + t; 
三 地 址 语句 x := y+z 称 为 定义 x 并 使 用 (或 引用 ) y 和 z。 对 于 基本 块 中 的 一 个 名 字 ， 
如 果 它 的 值 在 某 一 点 以 后 还 要 被 引用 的 话 ， 当 然 ， 也 可 能 是 在 另 一 个 基本 块 中 引用 它 ， 我 们 称 
它 在 程序 中 的 该 点 是 活跃 的 。 
下 面 的 算法 可 用 于 把 三 地 址 语句 序列 划分 成 基本 块 。 
算法 9.1 划分 成 基本 块 。 
输入 : 一 个 三 地 址 语句 序列 。 
输出 : 一 个 基本 块 列表 ， 其 中 每 个 三 地 址 语句 仅 在 一 个 块 中 。 
方法 : 
1. 首先 确定 入 口语 句 ( 即 基本 块 的 第 一 个 语句 ) 的 集合 。 所 用 规则 如 下 : 
i) 第 一 个 语句 是 人口 语句。 
ii) 任何 能 由 条 件 转移 语句 或 无 条 件 转移 语句 转移 到 的 语句 都 是 人 口语 句 。 
iii) 紧 跟 在 转移 语句 或 条 件 转移 后 面 的 语句 是 人 口语 句 。 
2. 对 于 每 个 人 口语 句 ， 其 基本 块 由 它 begin 
和 直到 下 一 个 人 日 语句 (但 不 含 该 入 口语 prod := 0; 
句 ) 或 程序 结束 的 所 有 语句 组 成 。 口 i := 1; 
. do begin 
例 9.3 考虑 图 9-7 中 的 源 代码 片段 ， prod := prod + afi] + bli]; 
它 计算 两 个 长 度 为 20 的 向 量 as 和 b 的 点 积 。 ea) 
在 我 们 的 目标 机 器 上 完成 该 计算 的 三 地 址 while i <= 20 = 
语句 序列 如 图 9-8 所 示 。 





让 我 们 用 算法 9.1 来 生成 图 9-8 的 三 地 


图 9-7 计算 点 积 的 程序 
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址 码 的 基本 块 。 由 规则 人 ， 语 名 (1) 是 一 (1) prod := 0 
个 入 口语 名 。 由 规则 (ii)， 语句 (3) 也 是 一 | (2) ite 

、 ee ` (3) ty) := 4>æi 
个 人 口语 名， 因为 最 后 条 语句 可 以 中 D alt) Py 
转 到 它 。 由 规则 Giij)， 跟 在 语句 (12) 之 后 (5) ty is 444 
的 语句 是 一 个 人 口语 句 〈 注意， 图 9-7 仅 人 

> (7) 5 := 七 * t4 
是 程序 片断 )。 这 样 ， 语 句 (1) 和 (2) 构 成 一 (8) Ca 
个 基本 块 ， 从 语句 (3) 开 始 的 余下 的 语句 (3) prod := te 
5 L (10) t; := i + 1 
形成 第 二 个 基本 块 。 口 OD iiet 
9.4.2 基本 块 的 变换 (12) if i <= 20 goto (3) 
基本 块 计 算 一 组 表达 式 ， 这 些 表 达 图 9-8 计算 点 积 的 三 地 址 码 


式 是 在 基本 块 出 口 活跃 的 名 字 的 值 。 如 
果 两 个 基本 块 计算 一 组 同样 的 表达 式 ， 则 称 它 们 是 等 价 的。 

可 以 对 基本 块 应 用 很 多 变换 而 不 改变 它 计算 的 表达 式 集 合 ， 许 多 这 样 的 变换 对 改进 最 终 由 
某 基本 块 生成 的 代码 的 质量 很 有 用 。 下 一 章 将 阐述 全 局 代码 优化 器 怎样 使 用 这 样 的 变换 来 重新 
安排 程序 的 计算 次 序 、 以 缩减 最 终 目标 程序 的 运行 时 间或 空间 需求 。 有 两 类 重要 的 局 部 等 价 变 
换 可 用 于 基本 块 ， 它 们 是 保 结 构 变 换 和 代数 变换 。 
9.4.3 保 结 构 变 换 

基本 块 主要 的 保 结构 变换 是 : 

1. 公共 子 表达 式 删除 。 

2. 无 用 代码 删除 。 

3. 重新 命名 临时 变量 。 

4. 交换 两 个 独立 的 相 邻 语句 的 次 序 。 

让 我 们 稍微 详细 一 些 来 考察 这 些 变换 。 目 前 ， 我 们 先 假定 基本 块 没 有 数组 、 指 针 和 过 程 
调用 。 

1. 公共 子 表 达 式 删除 。 考 虑 基本 块 


b 
a 
b 
a 


(9-2) 


(+ 1 + 
anaa 


anuau 


a 


第 二 条 语句 和 第 四 条 语句 计算 同样 的 表达 式 ， 即 b+c-a， 因 此 ， 可 以 将 该 基本 块 转换 成 如 下 的 
等 价 基本 块 : 


a := bee 

: -a 
ope (9-3) 
d := b . 


虽然 (9-2) 和 (9-3) 的 第 一 条 语句 和 第 三 条 语句 右 部 的 表达 式 相 同 ,但 由 于 第 二 条 语句 重新 
定义 了 b， 使 得 第 一 条 语句 和 第 三 条 语句 中 的 bp 具有 不 同 的 值 ， 所 以 它们 计算 的 不 是 相同 的 
表达 式 。 

2. 无 用 代码 删除 。 基 本 块 的 语句 x := y + z 给 x 定 值 ， 但 如 果 以 后 不 再 引用 x， 则 称 x 为 
无 用 变量 。 这 样 的 语句 可 以 删 去 ， 而 不 会 改变 基本 块 的 值 。 

3. 重新 命名 临时 变量 。 假 如 有 语句 上 := b + c， 其 中 上 是 临时 变量 。 如 果 我 们 将 该 语句 改 
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成 u := b +c， 其 中 是 新 的 临时 变量 ,并 且 把 这 个 t 的 所 有 引用 都 改 成 4u， 那么 基本 块 的 值 
不 改变 。 事 实 上 ， 我 们 总 可 以 把 一 个 基本 块 变换 成 这 样 的 等 价 基本 块 ， 其 中 每 条 定义 临时 变量 
的 语句 都 定义 一 个 新 的 临时 变量 。 这 样 的 基本 块 叫做 范式 基本 块 。 

4. 语句 的 交换 。 如 果 基 本 块 有 两 条 相 邻 的 语句 


tı 
t2 


bree 
x + y 


当 且 仅 当 x 和 y 都 不 是 ti， 而 且 b 和 c 都 不 是 t; 时 ， 可 以 交换 这 两 个 语句 而 不 影响 基本 块 
的 值 。 注 意 ， 范 式 基 本 块 允 许 所 有 可 能 的 语句 交换 。 
9.4.4 代数 变换 

有 许多 代数 变换 可 用 于 把 基本 块 计算 的 表达 式 集 合 变换 成 代数 等 价 的 集合 ， 但 有 用 的 是 那 
些 可 以 简化 表达 式 或 用 较 快 运算 代替 较 慢 运算 的 变换 。 例 如 ， 像 


x i= x +0 

或 
x := Xx #1 

这 样 的 语句 可 以 从 基本 块 中 删除 而 不 改变 它 计 算 的 表达 式 集合 。 语 名 
xX := y ## 2 

中 的 指数 算 符 通常 需要 用 函数 调用 来 实现 。 使 用 代数 变换 ， 这 个 语句 可 以 由 快速 、 等 价 的 语句 
x := yey 

来 代替 。 


在 9.9 节 的 帘 孔 优化 和 10.3 节 的 基本 块 优化 中 会 更 详细 地 讨论 代数 变换 。 
9.4.5 流 图 

通过 构造 称 为 流 图 的 有 向 图 ， 我 们 可 以 把 控制 流 信息 加 到 组 成 程序 的 基本 块 集合 中 。 流 图 
的 节点 是 基本 块 。 有 一 个 特殊 的 节点 称 为 首 节点 ,这 个 基本 块 的 入口 语句 是 程序 的 第 一 个 语句 。 
如 果 在 某 个 执行 序列 中 B 跟随 在 B 之后， 则 从 
BJ B: 有 一 条 有 向 边 ， 即 如 果 

1. 从 有 的 最 后 一 条 语句 有 条 件 或 无 条 件 转移 
到 8 的 第 一 个 语句 ; 或 者 

2. 按 程序 的 次 序 ，B; 紧 跟 在 BZA, 并且 B 
不 是 结束 于 无 条 件 转移 
则 我 们 说 B 是 B: 的 前 驱 ， 而 B, 是 Bi 的 后 继 。 


例 9.4 ”图 9-7 中 程序 的 流 图 如 图 9-9 所 示 。B1 
BATA, ER, RAR, BBA 
(3) 的 语句 已 由 等 价 的 转移 到 Bo 块 开 始 的 语句 所 
RE. o 


9.4.6 基本 块 的 表示 
基本 块 可 以 用 多 种 数据 结构 来 表示 。 例 如 ， 用 算法 9.1 将 三 地 址 语句 划分 完毕 后 ， 每 个 基 
本 块 可 以 用 一 个 记录 来 表示 ， 该 记录 包括 块 中 四 元 式 的 个 数 、 指 向 人 口语 句 (第 一 个 四 元 式 ) 





图 9-9 程序 的 流 图 





Wa 
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的 指针 、 前 驱 基 本 块 表 和 后 继 基 本 块 表 。 另 一 种 办 法 是 为 每 个 基本 块 建立 一 个 四 元 式 链表 。 如 
果 代 码 优化 时 要 移动 四 元 式 的 话 ， 那 么 在 块 结尾 的 跳 转 语句 中 直接 引用 四 元 式 的 序号 会 引起 麻 
烦 。 例 如 ， 图 9-9 中 的 中 间 代 码 中 ， 如 果 从 语句 (3) 到 语句 (12) 的 基本 块 B, 在 四 元 式 数组 中 被 移 
动 到 别 的 地 方 或 者 被 缩短 的 话 ， 那 么 if i<= 20 goto(3) 中 的 (3) 就 必须 被 改变 。 所 以 ,我 
们 宁可 让 跳 转 语句 指向 块 而 不 是 指向 四 元 式 ， 正 如 图 9-9 中 所 做 的 那样 。 

值得 注意 的 是 ， 流 图 中 从 块 B 到 块 B 的 边 没 有 指出 在 什么 条 件 下 控制 从 B ESB, B 
边 没 有 告诉 我 们 当 条 件 满足 或 不 满足 的 时 候 ，B 末尾 的 条 件 转移 语句 是 否 转 移 到 B 的 人 口语 
句 。 这 些 信 息 在 需要 时 可 以 从 B 中 的 跳 转 语句 恢复 。 
9.4.7 循环 

在 流 图 中 ， 什 么 是 循环 ”怎样 找 出 所 有 的 循环 ? 大 多 数 情况 下 ， 这 些 问 题 很 容易 回答 。 例 
如 ， 图 9-9 中 存在 一 个 循环 ， 它 由 块 B; 组 成 。 然 而 ， 对 这 些 问 题 的 全 面 回答 却 有 点 难以 捉摸 ， 
我 们 将 在 下 一 章 详细 讨论 。 目 前 ， 只 要 知道 循环 是 流 图 中 满足 下 列 条 件 的 一 簇 节点 就 行 了 : 

1. 簇 中 所 有 节点 是 强 连通 的 ， 即 从 循环 中 任 一 节点 到 另 一 节点 都 有 一 条 长 度 大 于 等 于 1 的 
路 径 ， 路 径 上 的 所 有 节点 都 在 这 簇 节 点 中 。 

2. 这 种 节点 簇 有 惟一 的 入 口 。 从 循环 外 的 节点 到 达 循 环 中 任 一 节点 的 惟一 方式 是 首先 通过 
Aig 

不 包含 其 他 循环 的 循环 叫做 内 循环 。 


9.5 下 次 引用 信息 


在 本 节 中 ， 我 们 将 收集 基本 块 中 名 字 的 下 次 引用 信息 。 如 果 存 放 在 寄存 器 中 的 名 字 以 后 不 
再 需要 ， 则 可 以 将 该 寄存 器 分 配给 其 他 名 字 。 只 有 当 某 个 名 字 在 后 面 还 会 用 到 时 才 将 其 保存 在 
内 存 中 的 思想 可 以 应 用 到 许多 种 语 境 中 。 在 5.8 节 中 我 们 用 该 思想 为 属性 值 分 配 空间 ， 下 一 节 的 
简单 代码 生成 器 将 其 用 于 寄存 器 分 配 。 作 为 最 后 一 种 应 用 ， 我 们 将 考虑 临时 名 字 的 存储 分 配 。 
9.5.1 计算 下 次 引用 信息 

三 地 址 语句 中 名 字 的 引用 Cuse) 定义 如 下 : 假定 三 地 址 语句 i 将 一 个 值 赋 给 x， 如 果 语 名 
j 中 的 x 是 一 个 操作 数 ， 并 且 控 制 沿 着 一 条 没有 对 i 赋值 的 路 径 从 i 到达 j， 那么 ， 我 们 称 j 引 
用 在 i 中 计算 出 的 x 的 值 。 

我 们 希望 为 每 个 三 地 址 语句 x := y op z 确定 x、y 和 z 的 下 次 引用 信息 是 什么 。 目 前 ， 
我 们 不 考虑 在 包含 该 语句 的 基本 块 以 外 的 引用 情况 ， 但 若 需 要 这 种 信息 ， 可 使 用 第 10 章 中 的 活 
路 变量 分 析 技 术 来 确定 是 否 有 这 样 的 引用 。 

确定 下 次 引用 信息 的 算法 对 每 个 基本 块 反 向 扫描 。 扫 描 三 地 址 语句 流 可 以 很 容易 地 找到 基 
本 块 的 末尾 ， 如 算法 9.1 那 样 。 因 为 过 程 可 能 有 副作用 ， 为 方便 起 见 ， 我 们 假定 每 个 过 程 调 用 
都 开始 一 个 新 的 基本 块 。 

找到 基本 块 的 结尾 后 ， 我 们 由 后 向 前 扫描 直到 开始 ， 并 为 每 个 名 字 x 在 符号 表 中 登记 它 在 
本 块 中 是 否 有 下 次 引用 ; 如 果 没 有 ， 则 登记 它 在 本 块 出 口 处 是 否 活 跃 。 如 果 已 经 做 完了 第 10 章 
讨论 的 数据 流 分 析 ， 则 我 们 会 知道 哪些 名 字 在 每 个 块 的 出 口 处 是 活跃 的 。 如 果 还 没有 做 活跃 变 
量 分 析 ， 则 可 以 采用 一 种 保守 的 做 法 ， 即 假定 所 有 的 非 临时 变量 在 出 口 处 都 是 活跃 的 。 如 果 产 
生 中 间 代 码 或 最 优 代码 的 算法 允许 某 些 临 时 变量 在 基本 块 间 交叉 引用 ， 则 把 它们 也 当 作 是 活 唉 
的 。 一 种 好 的 办 法 是 标记 这 样 的 临时 变量 ， 免 得 将 所 有 的 临时 变量 都 看 作 是 活跃 的 。 

假如 反 向 扫描 时 我 们 到 达 了 三 地 址 语句 i: x := y opz, 然后 我 们 执行 如 下 操作 ， 
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1. 从 符号 表 中 找到 x、y 和 z 的 下 次 引用 信息 和 活路 情况， 并 把 它们 附加 到 语 名 i 上。 

2. 在 符号 表 中 把 x 置 成 不 活跃 和 没有 下 次 引用 。 

3. 在 符号 表 中 ,将 y 和 z 和 置 成 活跃 ， 而 且 将 它们 的 下 次 引用 信息 置 为 i。 

注意 ， 步 又 2 和 步骤 3 的 次 序 不 能 颠倒 ， 因 为 x 可 能 是 y 或 z。 

如 果 三 地 址 语句 i 形 如 x:= y 或 x:= opy, 步骤 同上 ,但 忽略 zo 
9.5.2 临时 名 字 的 存储 分 配 

虽然 在 优化 编译 器 中 ， 每 当 需 要 临时 变量 时 都 建立 一 个 不 同 的 名 字 可 能 是 有 用 的 (理由 在 
第 10 章 中 )， 但 也 必须 分 配 空间 以 保存 这 些 临时 变量 的 值 。7.2 节 中 活动 记录 临时 变量 域 的 大 小 
随 临 时 变量 个 数 的 增加 而 增长 。 

一 般 情 况 下 ， 如 果 两 个 临时 变量 不 同时 活跃 的 话 ， 可 以 把 它们 压缩 在 同一 个 单元 中 。 因 为 
几乎 所 有 的 临时 变量 都 是 在 基本 块 中 定义 和 引用 的 , 因此 可 以 用 下 次 引用 信息 来 紧缩 临时 变量 。 
对 于 那些 在 基本 块 间 交 义 引 用 的 临时 变量 ， 放 在 第 10 章 的 数据 流 分 析 中 进行 讨论 。 

临时 变量 存储 单元 的 分 配 可 以 这 样 进行 : 依次 检查 临时 变量 域 的 单元 ， 找 到 第 一 个 不 含 活 
路 临时 变量 的 单元 ， 把 它 指 派 给 待 分 配 的 临时 变量 。 如 果 没 有 这 样 的 单元 ， 则 在 活动 记录 的 临 
时 变量 域 中 增加 一 个 单元 。 在 许多 情况 下 ， 临 时 变量 可 以 压缩 到 只 使 用 寄存 器 ， 而 不 需要 内 存 
单元 ， 见 9.6 节 的 讨论 。 

例如 ， 基 本 块 (9-1) 中 有 6 个 临时 变量 可 压缩 在 2 个 单元 中 ， 它 们 是 t, 和 ti: 





=z arta 
zat b 
2 2 + t2 

t, := t + ty 
z beb 
zt, + t; 


9.6 一 个 简单 的 代码 生成 器 


本 节 中 的 代码 生成 策略 为 三 地 址 语句 序列 生成 目标 代码 ， 它 依次 考虑 每 条 语句 ， 记 住 该 语 
句 当前 是 否 有 操作 数 在 寄存 器 中 ， 如 果 有 的 话 ， 尽 量 利 用 这 一 点 。 为 简单 起 见 ， 我 们 假设 三 地 
址 语句 的 每 种 算 符 都 有 对 应 的 目标 机 器 算 符 。 还 假定 将 计算 结果 尽 可 能 长 时 间 地 保留 在 寄存 器 
中 ， 只 有 在 下 面 亢 种 情况 下 才 将 其 存 人 内 存 : 

(a) 如 果 此 寄存 器 要 用 于 其 他 计算 。 

(b) 正好 在 过 程 调用 、 转 移 或 标号 语句 之 前 。® 

条 件 (b) 上 暗示 在 基本 块 的 结尾 ， 必 须 将 所 有 东西 都 保存 起 来 。。 必 须 这 样 做 的 原因 是 ， 离 开 
一 个 基本 块 后 ， 可 能 进入 几 个 不 同 的 基本 块 中 的 一 个 ， 或 者 进入 一 个 还 可 以 从 其 他 块 进入 的 基 
本 块 。 在 这 两 种 情况 下 ， 没 有 额外 的 工作 ， 就 认为 不 管控 制 怎样 到 达 某 基本 块 ， 该 块 引用 的 数 
据 总 是 处 于 相同 的 寄存 器 中 是 不 妥 的 。 因 此 ， 为 避免 可 能 的 错误 ， 这 个 简单 的 代码 生成 算法 在 
穿越 基本 块 或 调用 过 程 时 ， 存 储 所 有 的 东西 。 稍 后 我 们 将 考虑 穿越 基本 块 边界 时 将 数据 保存 在 


O 如 果 x 不 活跃 ， 则 这 个 语句 可 以 删 掉 。9.8 节 将 考虑 这 种 变换 。 

O 但 是 , 为 产生 符号 转 储 (这 将 使 得 内 存单 元 和 寄存 器 的 值 会 根据 源 程序 的 名 字 而 变 得 可 用 )， 如 果 一 个 程 
序 错误 突然 引起 一 个 突然 中 断 和 退出 的 话 ， 那 么 将 程序 贡 定 义 的 变量 ( 不 必 是 编译 器 生成 的 临时 变量 ) 在 
计算 之 后 立即 保存 起 来 将 更 方便 。 


O 注意 ,我 们 没有 假设 四 元 式 被 编 详 器 划分 为 基本 块 ， 基 本 块 在 任何 情况 下 都 是 一 个 有 用 的 概念 。 


a 


a 
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寄存 器 中 的 方法 。 

如 果 我 们 生成 单条 开销 为 1 的 指令 ADD Rj, Ri, MHAR a 存在 Ri 中 ， 那 么 我 们 就 可 
以 为 三 地 址 语句 a := b + c 产生 合理 的 代码 。 该 序列 只 有 在 以 下 情况 下 才 是 可 能 的 ， 即 寄 
存 器 Ri 中 存放 了 b, Rj 中 存放 了 c, Hb 在 此 语句 之 后 不 再 活跃 ， 即 b 在 此 语句 之 后 不 再 
被 引用 。 

如 果 Ri 中 存放 了 b, 但 c 在 内 存单 元 中 (为 方便 起 见 ， 仍 叫做 c), b 仍然 不 再 活跃 ， 那 
么 可 以 产生 如 下 代码 序列 ; 


ADD c, Ri 开销 = 2 





或 


MOV c, RJ 


ADD Rj, Ri 开销 一 3 


WR c 的 值 以 后 还 要 被 引用 的 话 ， 则 第 二 个 指令 序列 比较 有 吸引 力 ， 因 为 可 以 从 寄存 器 Rj 中 
取 它 的 值 。 基 于 b 和 c 当前 在 什么 地 方 以 及 b 的 值 以 后 是 否 还 会 被 引用 ， 还 有 很 多 情况 需要 
考虑 。 还 必须 考虑 b 和 c 中 的 一 个 或 两 个 都 是 常数 的 情况 。 如 果 + 是 可 交换 的 话 ， 要 考虑 的 情 
况 还 会 增加 。 所 以 ， 我 们 可 以 看 出 ， 代 码 生成 要 考察 大 量 情况 ， 采 用 哪 种 情况 依赖 于 三 地 址 语 
名 出 现 的 上 下 文 。 

9.6.1 寄存 器 描述 符 和 地 址 描述 符 

代码 生成 算法 使 用 寄存 器 描述 符 和 地 址 描述 符 来 记录 寄存 器 的 内 容 和 名 字 的 地 址 。 

1. 寄存 器 描述 符 记录 每 个 寄存 器 的 当前 内 容 。 每 当 需 要 一 个 新 的 寄存 器 时 ， 就 要 察看 此 描 
述 符 。 假 定 初始 时 寄存 器 描述 符 指 示 所 有 的 寄存 器 沟 为 空 (如果 寄 存 器 分 配 穿越 块 边界 ， 就 不 
是 这 种 情况 了 )。 当 对 基本 块 进行 代码 生成 时 ， 在 任 一 给 定时 刻 ， 每 个 寄存 器 将 保存 零 个 或 多 
个 名 字 的 值 。 

2. 地 址 描述 符 记 录 运 行 时 该 名 字 的 当前 值 存 放 的 一 个 或 多 个 位 置 。 该 位 置 可 能 是 一 个 寄存 
器 、 一 个 栈 单元 、 一 个 内 存 地 址 或 这 些 地址 的 某 个 集合 ， 因 为 复制 时 值 仍 然 保 留 在 原来 的 地 方 。 
这 些 信息 可 以 存放 在 符号 表 中 ， 用 来 确定 对 名 字 的 存 取 方 式 。 

9.6.2 代码 生成 算法 

代码 生成 算法 将 构成 一 个 基本 块 的 三 地 址 语句 序列 作为 输入 ， 对 每 个 形 如 x := Y op z 的 三 
地 址 语句 执行 如 下 动作 : 

1. 调用 函数 getreg 以 确定 存放 y op z 的 计算 结果 的 位 置 L。L 通常 是 寄存 器 ， 也 可 能 是 
内 存单 元 ， 我 们 将 在 下 面 简 要 描述 函数 getrego 

2. 查看 y 的 地 址 描述 符 以 确定 y'，y ' 是 y 的 值 存放 的 当前 位 置 ( 或 当前 位 置 之 一 )。 如 
R y 的 值 当 前 既 在 内 存单 元 中 又 在 寄存 器 中 ， 则 首选 y' 为 寄存 器 。 如 果 y 的 值 还 不 在 中 ， 
则 产生 指令 Mov y '，L， 把 y 的 值 复制 到 L 中 。 

3. 产 生 指令 oP z', L, HF z’ 是 z 的 当前 位 置 之 一 。 同 (2) 一 样 ， 如 果 z 值 既 在 寄存 器 
中 又 在 内 存单 元 中 ， 则 首选 z ' 为 寄存 器 。 更 新 x 的 地 址 描述 符 以 记录 x 在 工 中 。 如 果 工 是 
寄存 器 ， 则 更 新 这 个 寄存 器 描述 符 以 记录 该 寄存 器 存 有 x 的 值 。 

4. 如 果 y 和 (或 ) z 的 当前 值 没 有 下 次 引用 ， 在 基本 块 的 出 口 也 不 活跃 ， 并 且 在 寄存 器 
中 ， 则 修改 寄存 器 描述 符 以 表示 在 执行 了 x := y op z 之 后 ， 这 些 寄存 器 分 别 不 再 包含 y 和 
(或 ) z 的 值 。 
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如 果 当 前 的 三 地 址 语句 中 有 一 元 算 符 ， 处 理 步 又 与 上 面 类 似 ， 我 们 略 去 这 些 细节 。 一 个 重 
要 的 特例 是 三 地 址 语句 x := y。 如 果 y 在 寄存 器 中 ， 只 要 改变 寄存 器 描述 符 和 地 址 描述 符 以 记 
录 x 的 值 现在 只 能 在 保存 y 值 的 寄存 器 中 找到 即 可 。 如 果 y 没有 下 次 引用 且 在 基本 块 的 出 口 不 
是 活跃 的 ， 则 该 寄存 器 不 再 保存 y 的 值 。 

如 果 y 的 值 仅 在 内 存 中 ， 原 则 上 记 住 x 的 值 在 y 的 内 存单 元 中 即 可 ， 但 这 样 会 使 我 们 的 
算法 变 得 复杂 ， 因 为 以 后 若 要 改变 y 的 值 ， 必 须 先 保 存 x 的 值 。 所 以 如 果 y 在 内 存 ， 则 用 
getreg 来 找到 一 个 存放 y 的 寄存 器 ， 并 将 此 寄存 器 作为 x 的 位 置 。 

另 一 种 办 法 是 产生 指令 MOV y，x。 如 果 x 的 值 在 基本 块 中 没有 下 次 引用 ， 这 样 做 会 比较 
好 一 些 。 值 得 注意 是 ， 如 果 使 用 第 10 章 中 的 各 种 优化 算法 ， 尤 其 是 复制 传播 算法 ， 大 多 数 ( 如 
果 不 是 所 有 的 ) 复制 指令 可 以 删 掉 。 

一 旦 处 理 完 基 本 块 的 所 有 三 地 址 语句 ， 我 们 就 用 Mov 指令 存储 那些 在 基本 块 的 出 口 是 活 
路 的 并 且 还 不 在 它 的 内 存单 元 中 的 名 字 的 值 。 为 完成 这 一 工作 ， 我 们 用 寄存 器 描述 符 来 确定 哪 
些 名 字 仍 保留 在 寄存 器 中 ， 用 地 址 描述 符 来 确定 这 些 名 字 中 哪些 还 不 在 它们 的 内 存单 元 中 ， 用 
活跃 变量 信息 来 确定 是 否 要 存储 这 些 名 字 。 如 果 基 本 块 间 的 数据 流 分 析 还 没有 计算 出 活跃 变量 
信息 ， 则 必须 假定 所 有 用 户 定义 的 名 字 在 基本 块 的 末尾 都 是 活路 的。 

9.6.3 阔 数 getreg 

函数 getreg 返回 位 置 L， 用 来 保存 语句 x := y op z 的 x 值 。 要 为 i 产生 非常 好 的 选择 须 
在 这 个 函数 的 实现 上 付出 很 大 的 努力 ， 本 节 将 讨论 一 种 基于 前 面 的 下 次 引用 信息 的 简单 易 行 
的 办 法 。 

1. 如 果 名 字 y 在 寄存 器 中 ， 且 该 寄存 器 不 含 其 他 名 字 的 值 (注意 ， 别 忘 了 x := y 这 样 的 复 
制 指 令 会 使 得 寄存 器 同时 保存 两 个 或 更 多 变量 的 值 )， 并 且 y 不 活跃 ， 且 在 执行 x :=y opz 以 
后 没有 下 次 引用 ,那么 就 返回 y 的 这 个 寄存 器 作为 L, HES y 的 地 址 描述 符 以 表示 y 已 不 
ELP, 

2. (1) 失 败 时 ， 如 果 有 空 寄 存 器 的 话 ， 就 返回 一 个 这 样 的 寄存 器 作为 L。 

3. (2) 失 败 时 ， 如 果 x 在 该 基本 块 中 有 下 次 引用 ， 或 者 op 是 一 个 需要 使 用 寄存 器 的 算 符 ， 
如 索引 ， 则 找 一 个 已 被 占用 的 寄存 器 R。 如 果 R 的 值 还 没有 出 现在 适当 的 存储 单元 M 中 ， 则 用 
指令 Mov R, MR 的 值 存 人 内 存单 元 NM， 更 新 M 的 地 址 描述 符 ， 并 返回 R。 如 果 R 中 保存 了 
几 个 变量 的 值 ， 则 对 于 每 个 需要 存储 的 变量 都 要 生成 一 条 Mov 指 令 。 一 个 合适 的 被 占用 寄存 器 
可 能 是 其 数据 在 最 远 的 将 来 被 引用 或 者 其 值 同 时 在 内 存 中 的 寄存 器 。 我 们 没有 给 出 精确 的 选择 ， 
因为 没有 人 证 明 哪 种 选择 方法 是 最 佳 的 。 

4. WR x 在 该 基本 块 中 不 再 被 引用 ， 或 者 找 不 到 合适 的 被 占用 寄存 器 ， 则 选择 x 的 内 存 
单元 作为 L。 

更 复杂 的 getreg 函数 在 确定 存放 x 值 的 寄存 器 时 还 要 考虑 x 的 后 续 引 用 情况 和 算 符 op 的 
交换 性 。 


例 9.5 赋值 语句 d := (a-b)+(a-c)+(a-c) 可 以 翻译 成 如 下 的 三 地 址 码 序列 : 


LL 


eray 


a 
a 
t + 
v 


人 SP aa 


其 中 a 在 基本 块 的 出 口 是 活 牙 的 。 上 述 代码 生成 算法 为 该 三 地 址 语句 序列 产生 的 代码 序列 如 图 
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9-10 所 示 。 图 中 给 出 了 在 代码 生成 过 程 中 寄存 器 描述 符 和 地 址 描述 符 的 值 ， 但 没有 给 出 这 样 的 
事实 : a, b 和 c 一 直 在 内 存 中 。 同 时 ， 我 们 还 假定 作为 临时 变量 的 t、u 和 v 不 在 内 存 中 ， 
除非 用 Mov 指令 显 式 地 将 它们 的 值 存 到 内 存 中 。 








生成 的 代码 | 寄存 器 描述 符 | 地 址 描述 符 





寄存 器 空 

MOV a, RO RO 包含 上 t 在 R0 P 
SUB b, RO 
MOV a, R1 RO 包含 上 t 在 RO 中 
SUB c, R1 RILES u u Æ R1 
ADD R1, RO | RO 包含 v u E R1 中 

RIAS u vÝ RC 
ADD R1, RO | RO 包含 a dd 在 RC 中 
MOV RO, d d 在 RC 和 





内 存 中 





图 9-10 代码 序列 


函数 getreg 的 第 一 次 调用 返回 RO 作为 计算 上 的 寄存 器 。 因 为 a 不 在 RO 中 ， 生 成 指令 
MOV a, RO 和 指令 SUB b，R0 ， 然 后 更 新 寄存 器 描述 符 以 记录 RO WA to 

代码 生成 以 这 种 方式 继续 进行 ， 直 到 最 后 一 个 三 地 址 语句 a := v+u 处 理 完 为 止 。 注 意 ， 因 
为 u 没有 下 次 引用 ，R1 将 变 为 空 。 最 后 ， 在 基本 块 的 结尾 生成 指令 Mov RO, d, 存储 活跃 变 
Ë d. 

图 9-10 中 生成 的 代码 的 开销 为 12。 可 以 将 它 缩减 到 14， 只 要 在 第 一 条 指令 后 立即 生成 指令 
MOV R0，R1， 而 删除 指令 MoV a, R1 即 可 ， 但 这 需要 更 复杂 的 代码 生成 算法 。 开 销 能 减少 
的 原因 是 从 ROAR] 比 从 内 存 装 人 要 廉价 一 些 。 口 


9.6.4 为 其 他 类 型 的 语句 生成 代码 


三 地 址 语句 中 的 索引 与 指针 运算 和 二 元 运算 的 处 理 方式 相同 。 图 9-11 给 出 了 为 索引 赋值 语 
句 a:=bfil 和 afil:=b 生 成 的 代码 序列 ， 假 定 b 是 静态 分 配 的 。 


本 


Err Sa E 

MOV b(R),R MOV b(R),R 
, MOV Mi,R 

MOV b,a(Ri) MOV b,a(R) 


MOV Si(A),R 
MOV b,a(R) 
图 9-11 索引 赋值 的 代码 序列 

i 的 当前 位 置 决 定 了 生成 的 代码 序列 。 图 中 给 出 了 3 种 情况 ,分 别 是 i 在 寄存 器 Ri 中 、i 
在 内 存单 元 Mi 中 以 及 i 在 栈 中 ， 其 偏 移 为 si 且 指 向 i 所 在 活动 记录 的 指针 在 寄存 避 A 中 。 
寄存 器 R 是 调用 函数 getreg 之 后 返回 的 寄存 器 。 对 于 第 一 个 赋值 ， 如 果 a 在 该 基本 块 中 有 下 次 
引用 ， 并 且 寄 存 器 R 是 可 用 的 ， 则 将 a 保留 在 寄存 器 R 中 。 在 第 二 个 赋值 语句 中 ， 假 定 a 是 静 
态 分 配 的 。 

图 9-12 给 出 了 为 指针 赋值 语句 a := *p 和 *p := a 产生 的 代码 序列 。 这 里 ，p 的 当前 位 置 决 










语句 








开销 
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定 了 生成 的 代码 序列 。 
nye ?在 寄存 器 Rp 中 P 在 内 存 Mp 中 PERT 
kii 代码 [ra| 代码 | 开销 代码 
， (A), 
wun [wn ova | 2 py | a fiov Stal 
MOV Mp,R MOV a,R 
*pisa MOV a,*Rp 2 4 


MOV a,4R MOV R,#Sp(A) 


图 9-12 指针 赋值 的 代码 序列 


同上 面 一 样 ， 这 里 也 给 出 了 3 种 情况 : p 开始 在 Rp 中 ,在 内 存单 元 Mp 中 ， 在 栈 中 ， 其 偏 
移 地 址 为 Sp 且 指 向 p 所 在 活动 记录 的 指针 在 寄存 器 A 中 。 寄 存 器 R 也 是 调用 函数 getreg 之 
后 返回 的 寄存 器 ， 第 二 个 赋值 语句 中 也 假定 a 是 静态 分 配 的 。 

9.6.5 条 件 语句 

机 器 实现 条 件 转移 的 方式 有 两 种 。 一 种 方式 是 根据 寄存 器 的 值 是 否 为 下 面 6 个 条 件 之 一 
进行 分 支 : 负 、 零 、 正 、 非 负 、 非 零 和 非 正 。 在 这 样 的 机 器 上 , 像 if x<y goto z 这 样 
的 三 地 址 语句 可 以 通过 下 面 的 方法 实现 : 把 x My 的 值 存 人 寄存 器 R， 如 果 R 的 值 为 负 ， 则 
跳 到 z。 

第 二 种 方式 是 用 一 组 条 件 码 来 表示 计算 的 结果 或 装 人 寄存 器 的 值 是 负 、 零 还 是 正 。 这 种 方 
法 适 于 大 多 数 机 器 。 通 常 ， 比 较 指 令 ( 在 我 们 的 机 器 上 是 cMP ) 有 这 样 的 性 质 ， 它 设置 条 件 码 
而 不 真正 计算 值 。 也 就 是 说 ， 若 x >y， 那 么 CMP x, y 置 条 件 码 为 正 ， 等 等 。 条 件 转移 机 器 
指令 根据 指定 的 条 件 < 、= 、> 、< 、z 或 宇 是 否 满足 来 决定 是 否 转移 。 我 们 用 指令 co <= z 
表示 如 果 条 件 码 为 负 或 者 零 则 转移 到 z。 例 如 ，if x<y goto z 可 以 用 如 下 指令 来 实现 : 


CMP X, y 
CJ< z 





为 带 条 件 码 的 机 器 生成 代码 时 ， 维 护 一 个 条 件 码 描述 符 将 非常 有 用 ， 该 描述 符 将 告诉 我 们 
上 次 设置 条 件 码 的 名 字 或 被 比较 的 名 字 对 ， 于 是 下 面 的 语句 


xX :=y+Zz 
if x < 0 goto z 


可 以 实现 为 


CJ< z 


前 提 是 我 们 知道 条 件 码 是 在 指令 ADD 2, R0 之 后 由 x 确定 的 。 
9.7 寄存 器 分 配 与 指派 


只 涉及 寄存 器 操作 数 的 指令 要 比 那些 涉及 内 存 操作 数 的 指令 短 且 快 。 因 此 有 效 地 利用 害 存 
器 对 于 产生 好 的 代码 非常 重要 。 本 节 将 给 出 判断 程序 中 哪些 值 应 该 驻 留 在 寄存 器 中 (寄存 器 分 
Ac) 以 及 每 个 值 应 驻 留 在 哪个 寄存 器 中 〈 寄存 器 指派 ) 的 种 种 策略 。 

一 种 寄存 器 分 配 和 指派 的 方法 是 给 目标 程序 中 的 具体 值 分 配 某 些 寄存 器 。 比 如 ， 可 以 给 基 
地 址 分 配 一 组 寄存 器 ， 算 术 运 算 则 分 配 另 一 组 ， 运 行 时 栈 顶 分 配 一 个 固定 的 寄存 器 等 等 。 
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这 种 方法 的 优点 是 它 简化 了 编译 器 的 设计 ， 其 缺点 是 应 用 范围 限制 太 严 ， 且 寄存 器 的 使 用 
效率 较 低 ， 某 些 寄 存 器 可 能 在 大 部 分 代码 中 闲置 未 用 ， 而 且 可 能 产生 不 必要 的 装载 和 存储 。 但 
是 在 多 数 计 算 环 境 中 为 基 址 寄存 器 、 栈 指针 等 保留 几 个 寄存 器 而 其 余 的 寄存 器 由 编译 器 灵活 分 
配 还 是 比较 合理 的 。 

9.7.1 全 局 寄存 器 分 配 

9.6 节 中 的 代码 生成 算法 使 用 寄存 器 来 保存 单个 基本 块 的 值 。 但 是 在 每 个 块 的 结尾 要 存放 
所 有 的 活跃 变量 。 为 节省 其 中 的 某 些 存储 和 相应 的 负载 ， 我 们 可 以 将 寄存 器 分 配给 那些 频繁 使 
用 的 变量 ， 并 且 在 基本 块 之 间 (全 局 地 ) 保持 这 些 寄 存 器 的 一 致 性 。 因 为 程序 将 大 多 数 时间 花 
在 内 循环 上 ， 一 种 比较 白 然 的 全 局 寄存 器 分 配方 法 是 在 整个 循环 中 将 经 常 使 用 的 值 保 存在 固定 
的 寄存 器 中 。 现 在 假定 ， 我 们 已 经 知道 流 图 的 循环 结构 ， 而 且 知 道 基本 块 中 计算 出 的 哪些 值 要 


在 该 块 外 使 用 。 下 一 章 将 涉及 计算 这 些 信 息 的 技术 。 


一 种 全 局 寄存 器 分 配 策略 是 分 配 固定 数目 的 寄存 器 来 保存 每 个 内 部 循环 中 大 部 分 活跃 的 
值 。 不 同 循环 中 选中 的 值 可 能 不 同 。 没 被 分 配 掉 的 寄存 器 可 以 用 来 存放 像 9.6 节 中 的 一 个 块 的 
局 部 值 。 这 种 方法 有 一 个 缺点 : 国定 的 寄存 器 数目 对 全 局 寄存 器 分 配 来 说 不 总 是 够 用 。 但 是 这 
种 方法 实现 简单 ， 而 且 已 经 被 用 在 Fortran H, BI IBM-360 系列 机 上 的 优化 Fortran 编译 器 中 
( Lowry and Medlock[1969] )。 

在 类 C 语 言 和 Bliss 语 言 中 ， 通 过 使 用 寄存 器 声明 在 过 程 运行 期 间 将 某 些 值 保 存在 寄存 器 中 ， 
程序 员 可 以 直接 执行 一 些 寄存 器 分 配 操 作 。 寄 存 器 声明 的 正确 运用 可 以 加 速 程 序 ， 但 是 程序 员 
在 没有 弄 清 整 个 程序 的 轮 廊 时 最 好 不 要 进行 寄存 器 分 配 。 

9.7.2 引用 计数 

要 确定 在 执行 循环 L 时 通过 将 变 元 x 保存 在 寄存 器 中 所 节省 的 空间 ， 有 一 种 简单 的 办 法 就 
是 要 认识 到 ， 在 我 们 的 机 器 模型 中 ， 如 果 x 在 寄存 器 中 ， 对 x 的 每 次 引用 都 将 节省 一 个 单元 的 
开销 。 如 果 我 们 使 用 上 一 节 所 用 的 为 基本 块 产生 代码 的 方法 ， 那 么 在 基本 块 中 计算 完 x 以 后 ， 
如 果 在 基本 块 中 接 下 来 还 要 引用 x， 则 x 将 被 保留 在 寄存 器 中 。 这 样 ， 如 果 在 循环 工 中 存在 对 
x 的 赋值 ， 则 对 循环 元 中 对 x 赋值 之 前 的 x 的 每 一 次 引用 也 能 节省 一 个 存储 单元 。 如 果 我 们 能 
在 块 结束 时 避免 存储 x， 我 们 还 可 以 节省 两 个 存储 单元 。 这 样 ， 如 果 为 x 分 配 了 一 个 寄存 器 ， 
MX L 的 每 个 块 ， 如 果 x 在 出 口 是 活 路 的 ， 而 且 x 在 基本 块 中 被 赋 子 一 个 值 ， 则 计算 两 个 单元 
的 空间 节省 。 

如 果 x 在 循环 头 部 是 活跃 的 ， 则 我 们 必须 在 正好 要 进入 循环 L 之 前 将 x 装载 到 寄存 器 中 。 
这 个 装载 需要 耗费 两 个 单元 。 类 似 地 ， 如 果 * 在 循环 过 的 入 口 是 活 跃 的， 则 对 工 中 的 每 个 这 样 
的 块 及 ， 其 出 口 将 转移 到 工 外 的 它 的 某 个 后 继 ， 我 们 必须 耗费 两 个 单元 来 存放 x。 但 是 假如 循 
环 要 迭代 许多 次 ， 我 们 可 以 忽略 这 些 开销 。 因 此 计算 循环 L 中 为 x 分 配 寄存 器 所 带 来 的 好 处 的 
近似 公式 为 

> ( use (x, B) + 2 * live(x, B) ) (9-4) 
ZL 中 的 块 B 
这 里 use (x, B) 是 定义 x 之 前 ,在 B 中 对 x 的 引用 次 数 。 如 果 x 从 B 中 退出 时 是 活路 的， 而 
HEB 中 被 赋予 一 个 值 ， 则 live (x, B) 为 1， 否 则 为 0。 注 意 ，(9-4) 是 个 近似 公式 ， 这 是 由 于 
并 非 所 有 的 块 都 是 以 相同 的 频率 计算 的 ， 而 且 (9-4) 基 于 这 样 一 个 假设 : 循环 会 迭代 许多 次 。 在 
其 他 机 器 上 需要 开发 一 个 类 似 于 (9-4) 但 可 能 大 不 相同 的 公式 。 


例 9.6 ”考虑 图 9-13 所 述 的 内 循环 中 的 基本 块 ， 其 中 的 转移 和 条 件 转移 语句 已 经 被 忽略 了 。 
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假设 我 们 用 寄存 器 RO, R1 和 R2 RR 
存 循环 中 的 值 。 为 方便 起 见 ， 在 每 个 块 
的 人 口 和 和 出口 活 牙 的 变量 如 图 9-13 所 示 ， 
它们 分 别 紧 跟 在 每 个 块 的 上 面 和 下 面 。 
第 10 章 我 们 会 讨论 到 活跃 变量 的 一 些微 
妙 的 问题 。 例 如 ,注意 e 和 在 Bl 的 
末尾 都 是 活跃 的 ， 但 是 它们 当中 只 有 e 
在 8: 的 入 口 是 活 牙 的 ， 只 有 工 在 B 的 
入 口 是 活 贱 的 。--- 般 情况 下 ， 在 块 末 尾 
活跃 的 变量 是 在 其 每 个 后 继 块 的 开始 活 
RITENE., 

为 计算 x = a 时 式 (9-4) 的 值 ， 我 们 发 现 ，a 在 B 的 出 口 是 活 路 的 ， 而 且 在 那里 被 赋予 一 个 
(B, 但 在 Bo, Bs 和 Bs 的 出 口 不 是 活跃 的 。 因此 之 2live(a,B)=2., use(a,B;) =0， 因 为 a 是 在 任 

了 B 

何 引用 之 前 于 Bi 中 定义 的 。 同 样 use (a,B2) = use (a,B3) = 1, MA, use (a,Bs) = 0。 所 


W, È use(a,B)=2, KIE, x=a 时 式 (9-4) 的 值 为 4， 即 通过 将 a 存 人 一 个 全 局 寄存 器 可 以 节 





b,c,d,e,f ji 
图 9-13 一 个 内 循环 的 流 图 


L PRIB 
省 4 个 单元 的 开销 。 当 x=b, c,d, e 
和 £ 时 ， 式 (9-4) 的 值 分 别 为 6、3、6、4 





和 4。 所 以 我 们 可 以 分 别 选 择 a、b 和 a 
放 入 寄存 器 RO, R1 和 R2。 使 用 RO FF 
放 e 或 £ 而 不 是 a 可 以 节省 相同 的 开 
销 。 假 设 采用 9.6 节 的 技术 为 各 个 基本 块 
生成 代码 ， 则 从 图 9-13 生 成 的 汇编 代码 







MOV b,R1 
MOV d,R2 


MOV R1,R0 
ADD c,RO 
SUB R1,R2 
MOV RO,R3 
ADD £,R3 
MOV R3,e 





B, 







如 图 9-14 所 示 。 对 于 省 略 了 的 结束 图 9- 
13 中 每 个 基本 块 的 条 件 和 无 条 件 转移 语 
句 ， 我 们 没有 给 出 它们 生成 后 的 代码 ， 
因此 我 们 也 没有 以 一 个 单独 的 流 给 出 生 
成 后 的 代码 。 值 得 注意 的 是 ， 如 果 我 们 
不 严格 坚持 保留 寄存 器 RO0、R1 和 R2 的 
技术 ， 则 对 B, 我 们 可 以 使 用 如 下 指令 : 


SUB R2, RO 
MOV RO, f 






MOV RO,R3 
SUB R2,R3 
MOV R3,f 


MOV R2,R1 
ADD £,R1 

MOV RO,R3 
SUB c,R3 
MOV R3,e 









B3 


MOV R1,b 
MOV R2,d 





MOV R2,d 
图 9-14 使 用 全 局 寄存 器 指派 的 代码 序列 
因为 a 在 B, 的 出 口 不 是 活路 的， 所 以 可 以 节省 一 个 单元 。 类 似 的 节省 可 以 应 用 在 BB 中 。 O 


9.7.3 外 层 循环 的 寄存 器 指派 

为 内 循环 指派 了 寄存 器 并 产生 代码 以 后 ， 我 们 可 以 将 同样 的 方法 应 用 到 外 层 循环 中 。 如 果 
外 层 循环 L 包含 内 循环 L, WE L 中 分 配 了 寄存 器 的 名 字 不 必 在 L- 中 再 分 配 寄存 器 。 但 
E, WRAY x 是 在 循环 L 中 而 不 是 在 L 中 分 配 了 寄存 器 ， 我 们 必须 在 L, 的 入 口 处 保存 x 并 
在 离开 L HEAR Li-L, 之 前 装载 +。 类 似 地 ， 如 果 在 L 而 不 是 L 中 为 x 分 配 寄存 器 ， 则 我 们 


545 


(nm 
A 
D 
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必须 在 L MA CER x, FE L 的 出 口 保存 x. (REAM L 中 所 有 能 套 循 环 中 的 名 字 分 配 
了 寄存 器 ， 请 读者 给 出 为 外 层 循 环 工 中 的 名 字 分 配 寡 存 器 的 方法 。 
9.7.4 图 染色 法 寄存 器 分 配 

如 果 计 算 时 需要 寄存 器 但 所 有 可 用 的 寄存 器 均 被 占用 ， 则 必须 将 某 个 正 被 使 用 的 寄存 器 中 
的 内 容 存放 ( 溢出 ) 到 内 存单 元 中 以 释放 一 个 寄存 器 。 图 染色 法 是 一 种 简单 的 用 于 寄存 器 分 配 
和 寄存 器 溢出 管理 的 系统 技术 。 

用 这 种 方法 ,需要 两 遍 处 理 。 在 第 一 遍 中 ,选中 目标 机 器 指令 ,仿佛 有 无穷 个 符号 寄存 器 。 
实际 上 ， 中 间 代 码 中 使 用 的 名 字 成 了 寄存 嚣 名， 而 三 地 址 语句 成 了 机 器 语言 语句 。 如 果 访 问 变 
量 需要 使 用 栈 指针 、 显 示 指 针 、 基 址 寄存 器 或 其 他 辅助 访问 的 量 的 指令 ， 那 么 我 们 假定 这 些 量 
保存 在 寄存 器 中 。 一 般 情 况 下 ， 它 们 的 使 用 能 够 直接 翻译 到 对 机 器 指令 所 提 地 址 的 访问 模式 。 
如 果 访 问 更 加 复杂 ， 访 问 过 程 必 须 分 解 成 若干 机 器 指令 ， 而 且 可 能 需要 一 个 (或 几 个 ) 临时 的 
符号 寄存 器 。 

一 旦 选中 指令 ,第 二 遍 将 把 物理 寄存 器 指派 给 符号 寄存 器 。 目 标 是 找到 溢出 开销 最 小 的 
指派 。 

在 第 二 遍 中 ， 为 每 个 过 程 创建 一 个 寄存 器 冲突 图 。 该 图 中 节点 是 符号 寄存 器 ， 如 果 一 个 节 
点 在 另 一 个 节点 的 定义 点 是 活跃 的 ， 则 在 这 两 个 节点 间 有 一 条 边 。 例 如 ， 图 9-13 的 寄存 器 冲突 
图 中 含有 名 为 a 和 a 的 节点 。 在 定义 a 的 块 B, F, a 在 第 二 个 语句 是 活 贱 和 的， 因此， 图 中 节 
点 a 和 4 之 间 有 一 条 边 。 ' 

我 们 试图 用 种 颜色 给 该 寄存 器 冲突 图 图 染色 , 大 是 可 指派 寄存 器 的 数目 。( 如 果 图 的 每 个 
节点 都 被 指派 了 一 种 颜色 ， 且 任何 两 个 相 邻 节点 的 颜色 不 相同 ， 则 称 该 图 为 染色 图 。) 一 种 颜色 
代表 一 个 寄存 器 ， 染 色 可 以 保证 没有 两 个 互相 冲突 的 符号 寄存 器 被 指派 以 相同 的 物理 寄存 器 。 

尽管 确定 一 个 上 色 图 着 色 问 题 是 NP 完全 的 ， 但 是 下 面 的 启发 式 技术 还 是 可 以 在 实际 中 快 
速 实 现 着 色 。 假 设 图 G 中 的 节点 n 具有 少 于 个 邻居 (通过 边 连 接 到 的 节点 )。 从 G 中 删除 
n 和 与 它 相 连 的 边 ， 得 到 图 G'。 通 过 为 n 指派 一 种 与 其 所 有 邻居 不 同 的 颜色 ， 可 以 将 对 G' 的 
大 色 着 色 扩 展 到 对 GH kE. 

通过 反复 删 掉 少 于 大 条 边 的 节点 ， 我 们 要 么 得 到 一 个 空 图 ， 要 么 得 到 一 个 每 个 节点 有 大 个 
或 多 于 k 个 相 邻 节点 的 图 。 对 前 一 种 情况 来 说 ， 按 节点 被 移 走 的 相反 顺序 为 其 着 色 即 可 得 到 一 
个 上 色 染 色 图 ; 对 后 一 种 情况 ,k 色 着 色 是 不 可 能 的 。 在 此 一 个 节点 将 通过 引入 存 储 和 重 装 寄 
存 器 的 代码 而 产生 溢出 。 然 后 适当 地 修改 一 下 该 寄存 器 冲突 图 并 继续 进行 着 色 。Chaitin[1982] 


和 Chaitin et al. [1981] 中 描述 了 几 种 选择 溢出 寄存 器 的 启发 式 算法 。 原 则 上 应 避免 将 溢出 代码 
引入 内 循环 。 


9.8 基本 块 的 dag 表 示 法 


无 环 有 向 图 ( 简称 dag ) 是 实现 基本 块 变换 的 一 种 非常 有 用 的 数据 结构 。dag 图 示 说 明了 基 
本 块 中 每 个 语句 计算 的 值 是 如 何 被 本 块 中 的 后 继 语 句 引 用 的 。 对 下 列 问题 ， 从 三 地 址 语句 构造 
dag 是 一 种 好 办 法 : 确定 公共 子 表达 式 〈 多 次 计算 的 表达 式 ) ; 确定 哪些 名 字 需 要 在 块 内 使 用 ， 
而 在 块 外 计算 ;确定 块 中 哪些 语句 计算 的 值 可 以 在 块 外 使 用 。 

基本 块 的 dag 是 一 种 其 节点 带 有 如 下 标号 的 无 环 有 向 图 : 

1. 叶 节 点 由 惟一 的 标识 符 所 标记 ， 即 变量 名 或 常数 。 根 据 作 用 到 名 字 上 的 操作 符 可 以 确定 
需要 的 是 名 字 的 左 值 还 是 右 值 ; 大 多 数 叶 节点 代表 右 值 。 叶 节点 代表 名 字 的 初始 值 ， 为 了 避免 
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与 指示 名 字 当 前 值 的 标号 相 混 淆 ， 我 们 给 这 些 叶 节 


D t := ae i 
点 加 上 下 标 0 ( 如 在 下 面 的 G3) 中 那样 )。 四 si) 
2. 内 部 节点 用 操作 符 符号 标记 。 @ i 
3. 节点 还 可 能 为 标号 附 以 一 系列 标识 符 ， 目 的 (5) ty := tz a ty 
是 用 内 部 节点 表示 已 经 计算 的 值 ， 而 且 标记 节点 的 (6) te := prod + ts 
标识 符 也 具有 该 值 。 
值得 注意 的 是 ， 不 要 把 流 图 和 dag AR, MA 





i <= 20 goto (1) 


的 每 个 节点 可 以 用 一 个 dag 表示 ， 因 为 流 图 中 的 每 
个 节点 代表 一 个 基本 块 。 图 9-15 块 B; 的 三 地 址 码 


例 9.7 图 9-15 给 出 了 与 图 9-9 中 的 块 B, 相对 应 的 三 地 址 码 。 为 方便 起 见 ， 语句 序 号 从 (1) 开 
te. 与 其 对 应 的 dag 如 图 9-16 所 示 ， 给 出 构造 dag 的 算法 后 我 们 再 讨论 其 意义 。 现 在 可 以 看 到 ， 
dag 的 每 个 节点 都 可 代表 一 个 由 叶 节 点 〈 即 在 基本 块 的 人 口 变量 所 具有 的 值 和 常数 ) 形成 的 公 
式 。 例 如 ， 图 9-16 中 标 有 t4 的 节点 代表 b [4*i] ， 即 从 地 址 b 偏 移 4*i 个 字 节 后 所 得 到 的 字 的 
值 ， 即 ts 的 值 。 口 





图 9-16 图 9-15 的 块 的 dag 


9.8.1 dag 的 构造 

为 了 构造 一 个 基本 块 的 dag ,我 们 将 依次 处 理 块 中 的 每 条 语句 。 当 我 们 遇 到 形 如 x := y+z 
的 语句 时 ， 我 们 要 寻找 代表 y 和 z 当前 值 的 节点 。 这 些 节点 可 能 是 叶 节 点 ,或 者 是 dag 的 内 部 
节点 (如果 yy 和 / 或 z 已 在 该 块 中 先前 的 语句 中 计算 过 )。 然 后 我 们 创建 一 个 标 以 + 的 节点 ， 
并 给 它 两 个 子 节点 ; 左 子 节点 代表 y, ATHARE z。 然 后 将 标 以 + 的 节点 再 标 以 x。 但 是 ， 
如 果 已 经 有 一 个 节点 表示 同样 的 值 y + z， 我 们 就 不 往 dag 中 增加 新 的 节点 ， 而 是 给 已 经 存在 
的 节点 附加 标号 x。 

另外 还 有 两 个 细节 应 该 提 到 。 首 先 ， 如 果 x (不 是 xo ) 已 经 标 在 某 个 节点 上 了 ， 我 们 要 删 
除 该 标号 ， 因 为 x 的 当前 值 是 刚 被 创建 的 节点 。 其 次 ， 对 于 像 x := y 这 样 的 赋值 语句 我 们 不 
创建 新 节点 ， 而 只 是 将 标号 x 标 在 y 的 当前 值 所 在 节点 的 名 字 列 表 上 。 

现在 我 们 给 出 计算 基本 块 dag 的 算法 。 除 了 我 们 在 此 为 每 个 节点 附加 上 的 标识 符 附 加 列表 
以 外 ， 该 算法 和 算法 5.1 几 平一 样 。 应 该 提醒 读者 注意 的 是 ， 如 果 存 在 对 数组 的 赋值 ， 或 者 存 
在 通过 指针 的 间接 赋值 ， 或 者 由 于 EQUIVALENCE 语句 或 实 参与 形 参 的 对 应 而 导致 两 个 或 更 
多 的 名 字 指 向 一 个 内 存单 元 ， 该 算法 可 能 运行 不 正确 。 本 章 末 尾 我 们 将 讨论 处 理 这 些 情况 所 需 
要 的 修正 。 


算法 9.2 构造 一 个 dag. 
输入 : 一 个 基本 块 。 
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输出 : 包含 下 列 信息 的 该 基本 块 的 dago 

1. 每 个 节点 都 有 一 个 标号 。 叶 节点 的 标号 是 一 个 标识 符 《 允许 是 常数 )， 内 部 节点 的 标号 
是 一 个 操作 符 符 号 。 

2. 每 个 节点 有 一 个 附加 的 标识 符 表 ( 可 能 为 空 )， 这 里 的 标识 符 不 允许 是 常数 。 

方法 : 假定 有 合适 的 数据 结构 用 于 创建 带 有 1 个 或 2 个 子 节点 的 节点 ， 对 于 后 者 用 左 、 右 儿 
子 区 分 其 子 节 点 。 另 外 该 数据 结构 中 还 有 存放 每 个 节点 标号 的 位 置 以 及 创建 每 个 节点 附加 标识 
符 列 表 的 机 制 。 

除了 这 些 内 容 以 外 ， 我 们 还 需要 维护 一 个 与 一 个 节点 相关 联 的 所 有 标识 符 ( 包括 常数 ) 的 

合 。 这 个 节点 或 者 是 标 以 该 标识 符 的 叶 节 点 ， 或 者 是 该 标识 符 出 现在 其 附加 标识 符 列表 中 的 

内 部 节点 。 我 们 假定 存在 一 个 函数 node(identifier)， 当 我 们 建立 dag 时 ， 它 将 返回 最 新 建立 的 与 
identifier 相关 联 的 节点 。 直 观 地 看 ，node(identifien) 是 一 个 dag 节 点 ,该 节点 表示 在 dag 创 建 过 
程 的 当前 点 标识 符 identifier 所 具有 的 值 。 实 际 上 符号 表 中 的 identifier 表 项 将 指出 nodelidenti- 
fier) 的 值 。 

dag 构 造 过 程 是 依次 对 基本 块 中 的 每 条 语句 执行 下 述 步骤 1 至 3。 最 初 我 们 假设 dag 中 没有 节 
A, MERX node 对 任何 参数 都 是 未 定义 的 。 假 设 当 前 三 地 址 语句 是 如 下 三 种 形式 之 一 : 

(i) x := y op Zo 

(ii) x := op Yo 

(iii) x:= yə ° 
分 别 将 其 称 为 和、(ii 和 (ii 型 。 对 于 像 if i <= 20 goto (x 未 定义 ) 这 样 的 关系 操作 符 我 
们 将 其 看 成 G) 型 。 | 

1. 如 果 node(y) 没 有 定义 ， 则 创建 一 个 标号 为 y 的 叶 节点 ， 并 令 node(y) 为 该 节点 。 如 果 
EOW, MWA node(z) 没 有 定义 ， 则 创建 一 个 标号 为 z 的 叶 节 点 并 令 node(z) 为 该 叶 节 点 。 

2. 如 果 三 地 址 语句 为 @) 型 ， 确 定 是 否 有 一 个 标号 为 op， 其 左 儿 子 为 node(y)， 且 右 儿 子 为 
node(z) 的 节点 。( 这 种 检查 是 为 了 发 现 公 共 子 表达 式 。) 如 果 没 有 ， 就 创建 一 个 这 样 的 节点 。 
无 论 是 哪 种 情况 , 邻 n 是 所 找到 的 或 创建 的 节点 。 如 果 是 (让 型 ， 确 定 是 否 有 一 个 标号 为 op H 


只 有 一 个 子 节 点 node(y) 的 节点 。 如 果 没 有 ， 则 创建 一 个 这 样 的 节点 ， 并 令 n 是 这 个 找到 的 或 


创建 的 节点 。 如 果 是 (过) 型 ， 则 令 nX node(y)。 


3. 从 node(x) 的 附加 标识 符 表 中 删除 x。 在 第 2 步 找 到 的 节点 n 的 附加 标识 符 表 中 增加 标识 
符 x， 并 且 置 node(x) 为 n。 口 


ti 
例 9.8 让 我 们 回 到 图 9%-15 的 基本 块 ， 看 一 看 如 何 构造 Pe 
其 dag ( 如 图 9-16 所 示 )。 第 一 条 语句 是 ti := 4*i。 在 第 1 ‘ Žo 
步 中 ,我 们 必须 创建 标 以 4 和 io 的 叶 节 点 〈 同 前 ， 我 们 使 
用 下 标 0 区 分 标号 和 附加 标识 符 ， 但 下 标 不 是 标号 的 一 部 t 
分 )。 在 第 2 步 中 , 我 们 创建 一 个 标 以 * 的 节点 , 在 第 3 步 中 ， 
我 们 将 标识 符 ti 加 入 到 标号 为 * 的 节点 的 附加 标识 符 表 l 
中 。 图 9-17a 给 出 了 这 一 步 的 dag 图 。 a ， Žo 
对 于 第 二 条 语句 t := afti] ， 我 们 创建 一 个 标 以 a ) 
的 新 的 叶 节 点 并 找到 先前 创建 的 节点 node(t1)。 我 们 还 要 图 9-17 dag 创 建 过 程 中 的 一 步 


O 假设 操作 符 最 多 有 两 个 操作 数 。 推 广 到 三 个 或 多 个 操作 数 非常 简单 。 


ti, t3 
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创建 一 个 标 以 [1 的 新 节点 并 将 其 左 、 右 子 节点 设 为 a M tio 

对 于 语句 (3)，t; := 4*i， 我 们 可 以 确定 node(4) 和 node(i) 已 经 存在 。 因 为 操作 符 是 *， 所 
以 我 们 不 用 为 语句 (3) 创 建新 节点 ， 而 只 是 将 t; 添 加 到 以 * 为 标号 的 节点 的 附加 标识 符 表 中 。 产 
生 的 dag 如 图 9-17b 所 示 。 用 5.2 节 的 值 -编号 方法 可 以 很 快 发 现 已 经 存在 4*i 的 节点 。 

请 读者 自己 完成 dag 图 的 构造 。 我 们 只 提 一 下 对 语句 (9)i := ty 要 采取 的 步骤 。 在 处 理 语句 
(9) 以 前 ，node(i) 是 一 个 标 以 ie 的 叶 节 点 。 语 句 (9) 是 一 个 (i) 型 的 实例 ， 因 此 我 们 找到 节点 
node(t7)， 并 将 i 附加 到 其 标识 符 列表 上 ， 将 node(i) 置 为 node(t7)。 这 是 仅 有 的 两 条 语句 中 的 

一 个 ( 另 一 个 是 语句 (7) )， 其 中 node 的 值 发 生 了 变化 ， 正 是 这 种 变化 确保 了 i 的 新 节点 成 为 
操作 符 <= 节 点 的 左 儿 子 ， 该 操作 符 节点 是 为 语句 (10) 创 建 的 。 口 
9.8.2 dag 的 应 用 

当 我 们 执行 算法 9.2 时 ， 可 以 获得 一 些 非常 有 用 的 信息 。 首 先 请 注意 ， 我 们 可 以 自动 检测 出 公 
共 子 表达 式 。 其 次 ， 我 们 可 以 确定 哪些 标识 符 的 值 在 该 基本 块 中 被 引用 过 ;它们 就 是 那些 某 一 时 
刻 在 步骤 1 中 创建 的 叶 节点 所 对 应 的 标识 符 。 第 三 ， 我 们 可 以 确定 基本 块 中 哪些 语句 计算 的 值 可 
以 在 块 外 被 引用 ; 它们 正好 是 这 样 的 语句 5S， 即 对 于 步骤 2 中 为 其 创建 或 发 现 的 节点 n， 在 dag 构 造 
结束 时 仍 有 node(x) =n， 其 中 x 是 语句 5 所 指派 的 标识 符 。( 等 价 地 ，x 仍然 是 n 的 附加 标识 符 。) 


例 9.9 在 例 9.8 中 ， 所 有 的 语句 均 满 足 上 述 约束 条 件 ， 因 为 只 有 两 次 node 被 重新 定义 ， 即 
Xt prod 和 i， 而 node 的 先前 值 是 叶 节 点 。 因 此 ， 所 有 内 部 节点 的 值 都 可 以 在 基本 块 外 被 引 
用 。 现 在 假设 我 们 在 语句 (9) 之 前 插入 一 个 新 语句 s， 它 将 一 个 值 赋 给 i 。 在 语句 s 中 我 们 将 创 
建 一 个 节点 m 并 置 node(i) = m。 但 是 在 语句 (9) 中 我 们 要 重新 定义 node(i)。 于 是 ,在 语句 s 
中 计算 的 值 不 能 在 基本 块 外 被 引用 。 口 


dag 的 另 一 个 重要 应 用 是 利用 公共 子 表达 式 并 不 允许 使 用 形 如 x := y 的 赋值 操作 《〈 除 非 绝 
对 必要 ) 来 重建 一 个 简化 的 四 元 式 列表 。 也 就 是 说 ， 只 要 有 一 个 节点 的 附加 标识 符 列表 含有 一 
个 以 上 的 标识 符 ， 我 们 就 检查 该 节点 ， 看 哪些 标识 符 〈 如 果 有 的 话 ) 需要 在 块 外 被 引用 。 正 如 
我 们 曾 提 到 的 ， 要 找到 块 结尾 处 的 活路 变量 需要 用 到 第 10 章 讨论 的 称 为 “ 活 著 变量 分 析 ” 的 数 
据 流 分 析 。 然 而 ， 在 许多 情况 下 我 们 可 以 假定 图 9-15 中 基本 块 外 不 需要 像 fl，tz，…，t? 这 样 
的 临时 名 字 。( 但 是 需要 弄 清 逻辑 表达 式 是 如 何 翻 译 的 ， 一 个 表达 式 可 能 贯穿 好 几 个 基本 块 。) 

我 们 一 般 可 以 用 任意 的 拓扑 分 类 顺序 来 计算 dag 的 内 部 节点 。 按 照 dag 的 拓扑 分 类 ， 直 到 所 
有 的 子 节点 〈 内 部 节点 ) 都 计算 完毕 才能 计算 它们 的 父 节点 。 当 我 们 计算 一 个 节点 时 ， 我 们 将 
其 值 赋 给 它 的 一 个 附加 标识 符 x， 当 然 要 首先 选择 那些 其 值 在 块 外 需要 被 引用 的 标识 符 , 但 是 ， 
如 果 还 有 另 一 个 节点 m， 其 值 也 由 x 保留 ， 我 们 就 不 能 选择 x， 以 便 计算 完 m 以 后 m 仍 是 活 
路 的 。 在 这 里 我 们 定义 m 是 活跃 的 ， 如 果 m 的 值 需要 在 块 外 被 引用 ， 或 者 如 果 m 有 一 个 父 节 
点 还 没 被 计算 过 。 

如 果 节 点 n 有 另外 的 附加 标识 Ey, Y，…，yt， 它 们 的 值 也 要 在 块 外 被 引用 ， 则 我 们 使 
用 赋值 语句 yi := x，Yz := x，…，yk := x 为 其 赋值 。 如 果 n 根本 没有 附加 标识 符 ( 这 是 可 能 
的 ， 如 果 n 由 对 x 的 赋值 语句 所 创建 ， 但 接 下 来 x 又 被 重新 赋值 )， 我 们 可 以 创建 一 个 新 的 临 
时 名 字 来 保存 ”的 值 。 读 者 应 该 知道 ， 如 果 赋 值 语句 中 含有 指针 或 数组 ， 则 并 不 是 dag 的 每 一 
种 拓扑 分 类 都 是 允许 的 ， 稍 后 我 们 将 讨论 该 问题 。 


例 9.10 按照 图 9-16 的 dag 节 点 的 建立 顺序 对 节点 进行 排序 : tt ，t:，t4，ts，te，t7，(])， 
让 我 们 从 图 9-16 的 dag 出 发 重新 构造 一 个 基本 块 。 请 注意 原始 块 中 的 语句 (3) 和 (7) 没 有 创建 新 节 
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点 ， 而 只 是 将 标号 ts 和 prod 分 别 添加 到 节点 ti 和 ts 的 附加 标识 符 列 表 中 。 我 们 假设 任何 
临时 变量 t; 在 块 外 都 不 需要 。 
我 们 从 表示 4*i 的 节点 开始 。 该 节点 有 两 个 附加 标识 符 ti 和 ta。 我 们 用 ti 保存 4*i 的 
551] 值 ， 那么 重新 构造 的 第 一 条 语句 是 


tı tz 43# II 


这 和 原始 基本 块 中 的 语句 是 一 样 的 。 第 二 个 考虑 的 节点 标 有 ft>， 从 该 节点 构造 的 语句 是 


tz :sa [tl ] 


也 和 从 前 一 样 ， 下 一 个 考虑 的 节点 标 有 ts， 从 该 节点 构造 的 语句 是 
ts := b [ ti ] 


后 一 个 语句 使 用 t 而 不 是 像 在 原始 块 中 那样 使 用 ts 作为 参数 ， 因 为 5, 是 被 选中 用 来 保存 
4*i 的 值 的 名 字 。 
接 下 来 我 们 考虑 的 节点 标 有 ts， 并 生成 如 下 语句 : 


ts sm tp # t4 


对 于 标 以 te，prod 的 节点 ,我 们 选取 prod 保存 该 值 ， 因 为 我 们 认为 标识 符 prod 而 不 是 ts 
在 块 外 需要 被 引用 。 同 ts 一 样 ，t。 不 再 出 现 。 产 生 的 下 一 条 语句 是 : 


prod := prod + t; 


类 似 地 ， 我 们 选择 i 而 不 是 t: 来 保存 值 t+1， 产 生 的 最 后 两 条 语句 是 : 


i := i+1 
if i <a 20 goto (1) 


注意 ， 通 过 利用 dag 创 建 过 程 中 发 现 的 公共 子 表 达 式 ， 并 删 去 不 必要 的 赋值 语句 ， 图 9-15 
中 的 10 条 语句 已 减少 到 7 条 。 口 


9.8.3 数组 、 指 针 和 过 程 调用 
考虑 如 下 基本 块 : 
x :wm ali) 
alj) := y (9-5) 
z := ali) 
如 果 我 们 使 用 算法 9.2 构 造 (9-5) 的 dag， 则 a[i] 将 成 为 公共 子 表达 式 ， 而 且 “ 优 化 后 ”的 基本 
块 将 为 : 
x := a[i] 
Zim x (9-6) 
alj] := 了 
但 是 ， 在 i=j 并 且 ya[li] 时 ，(9-5) 和 (9-6) 式 所 计算 出 来 的 z 值 是 不 相同 的 。 原 因 是 当 我 们 
为 数组 a 赋值 时 ， 我 们 可 能 正在 改变 表达 式 a[li] 的 右 值 ， 尽 管 a 和 i 并 没有 变 。 因 此 当 我 们 
处 理 对 数组 a 的 赋值 时 有 必要 删除 标号 为 [] 、 左 参数 是 a 加 上 或 减 去 一 个 常数 ( 也 可 能 是 0 ) 
的 节点 。 也 就 是 说 ， 我 们 认为 对 这 些 节 点 添加 附加 标识 符 是 非法 的 ， 这 样 可 以 避免 它们 被 错 


O 注意 ，[] 的 参数 说 明 数 组 名 可 能 是 a 本 身 ， 或 者 是 一 个 a-4 这 样 的 表达 式 。 在 后 一 种 情况 下 ， 节 点 a 将 是 
节点 [的 子 节点 的 子 节 点 ， 而 不 是 其 子 节点 。 
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误 地 识别 为 公共 子 表达 式 。 因 此 我 们 需要 为 每 个 节点 设置 一 个 标志 位 以 标记 它 是 否 已 被 删除 。 
此 外 ， 对 于 基本 块 中 提 到 的 每 个 数组 a， 为 方便 我 们 可 以 保存 一 个 节点 表 ， 表 中 含有 所 有 当前 
未 被 删除 但 若 有 对 a 的 一 个 元 素 的 赋值 就 必须 被 删除 的 节点 。 

对 赋值 *p := w 会 产生 同样 的 问题 ， 其 中 p 是 一 个 指针 。 如 果 我 们 不 知道 p 指向 什么 ， 则 
在 上 述 意义 下 当前 正在 建立 中 的 dag 中 的 每 个 节点 都 必须 被 删 掉 。 如 果 标 有 a 的 节点 被 删 掉 
了 ， 而 且 接 下 来 有 一 个 对 a 的 赋值 ， 那 么 我 们 必须 为 a 创建 一 个 新 的 叶 节 点 ， 然 后 使 用 该 叶 
节点 而 不 是 n。 后 面 我 们 会 考虑 由 于 删除 节点 而 导致 的 对 计算 顺序 的 限制 。 

在 第 10 章 ， 我 们 将 讨论 可 以 发 现 p 只 能 指向 某 些 标识 符 子 集 的 方法 。 如 果 p 只 能 指向 * 或 
s, RARA node(r) 和 node(s) 必须 被 删 掉 。 另 外 也 可 以 相信 我 们 能 够 发 现在 基本 块 (9-$) 中 
i=j 是 不 可 能 的 ， 在 这 种 情况 中 节点 a[i] 不 必 因 为 a[j] := y 而 被 删 掉 。 但 是 后 一 种 发 现 经 
常 是 不 值得 的 。 

在 基本 块 中 的 过 程 调 用 将 删除 所 有 的 节点 ， 因 为 对 被 调用 过 程 缺少 了 解 ， 我 们 必须 假定 任 
何 变量 都 可 能 发 生变 化 而 产生 副作用 。 第 10 章 将 讨论 我 们 怎样 才 可 能 确定 某 些 标识 符 没有 被 过 
程 调用 所 改变 ， 因 而 这 些 标 识 符 所 对 应 的 节点 不 必 被 删除 。 

如 果 我 们 打算 把 dag 重 新 组 装 成 基本 块 ， 而 且 不 想 按照 创建 dag 节 点 的 顺序 ， 那 么 我 们 必须 
在 dag 中 指明 某 些 独立 的 节点 必须 以 某 种 顺序 进行 计算 。 例 如 在 (9-53) 中 ， 语 句 z := a[i] 必须 
跟 在 a[j] :=y 之 后 , malj) :=y 又 必须 跟 在 x := a[i] 之 后 。 让 我 们 在 dag 中 引进 边 n>m, 
它 并 不 表示 m 是 n 的 一 个 参数 ， 而 只 是 表明 计算 dag 时 n 的 计算 必须 跟 在 m 的 计算 之 后 。 下 面 是 
需要 遵循 的 规则 

1. 对 数组 a 的 一 个 元 素 的 任何 赋值 或 计算 都 必须 跟 在 其 前 对 该 数组 的 一 个 元 素 的 赋值 ( 如 
果 有 的 话 ) 之 后 。 

2. 对 数组 a 的 一 个 元 素 的 任何 赋值 都 必须 跟 在 其 前 对 a 的 任何 计算 之 后 。 

3. 对 任何 标识 符 的 任何 引用 都 必须 跟 在 其 前 的 过 程 调用 或 通过 指针 的 间接 赋值 ( 如 果 有 的 
话 ) 之 后 。 

4. 任何 过 程 调用 或 通过 指针 的 间接 赋值 都 必须 跟 在 其 前 对 任何 标识 符 的 任何 计算 之 后 。 

也 就 是 说 ， 当 对 代码 重新 排序 时 ， 不 可 以 出 现 对 数组 a 的 交叉 引用 ， 而 且 任何 语句 都 不 得 
穿越 过 程 调用 或 通过 指针 的 间接 赋值 。 
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逐条 语句 进行 的 代码 生成 策略 经 常 产生 含有 大 量 宛 余 指令 和 次 最 优 结构 的 目标 代码 。 通 过 
对 这 些 目标 程序 进行 “优化 ”转换 可 以 提高 这 种 目标 代码 的 质量 。“ 优 化 ”这 个 术语 有 些 误 导 ， 
因为 没有 任何 数学 工具 可 以 保证 结果 代码 是 最 优 的 。 但 是 ， 许 多 简单 的 转换 可 以 显著 地 改善 目 
标 程序 的 运行 时 间 和 空间 需求 ， 所 以 知道 哪 种 转换 在 实际 中 有 用 是 非常 重要 的 。 

竟 孔 优化 是 一 种 简单 有 效 的 局 部 优化 方法 ， 它 通过 检查 目标 指令 的 短 序列 ( RH AL), 
并 尽 可 能 用 更 小 更 短 的 指令 序列 代替 这 些 指令 以 提高 目标 程序 的 性 能 。 尽 管 我 们 将 窥 孔 优 化 作 
为 改善 目标 代码 质量 的 技术 ， 它 也 可 以 直接 用 在 中 间 代 码 生 成 之 后 以 提高 中 间 代 码 的 质量 。 

疯 孔 是 放 在 目标 程序 上 的 一 个 移动 的 小 窗口 。 孔 中 的 代码 不 需要 是 连续 的 ， 尽 管 有 些 实现 
要 求 这 样 。 罕 了 筷 优 化 的 特征 是 每 次 改进 可 能 又 为 进一步 的 改进 带 来 机 会 。 总 而 言 之 ， 为 获得 最 
大 收益 ， 有 必要 对 目标 代码 重复 进行 多 遍 优化 。 本 节 中 我 们 将 给 出 下 面 一 些 程序 转换 的 例子 ， 
它们 是 锚 孔 优化 的 典型 特征 。 
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。 宛 余 指 令 消除 。 
“控制 流 优化 。 
* 代数 化 简 。 
。 机 器 语言 的 使 用 。 
9.9.1 元 余 加 载 与 保存 
如 果 我 们 遇 到 如 下 指令 序列 : 


(1) MOV RO, a 
(2) MOV a, RO (9-7) 


我 们 可 以 删 去 指令 (2)， 因 为 当 执 行 (2) 时 ，(1) 可 以 保证 a 的 值 已 经 在 人 R0。 注 意 如 果 (2) 有 标 
号 ”， 我 们 就 不 能 保证 (1) 总 是 刚好 在 (2) 之 前 执行 ， 那 就 不 能 删 去 (2)。 当 两 条 语句 都 在 一 个 基 
本 块 中 时 这 种 转换 是 安全 的 。 

然而 ， 如 果 使 用 9.6 节 提出 的 算法 ， 就 不 会 产生 像 (9-7) 这 样 的 代码 ， 如 果 使 用 了 9.1 节 开始 
时 提出 的 那 种 较 简 单 的 算法 倒 有 可 能 产生 这 样 的 代码 。 
9.9.2 不 可 达 代 码 

抠 孔 优化 的 另 一 个 措施 是 删 去 不 可 达 指 令 。 紧 跟 在 无 条 件 转移 指令 后 的 无 标号 指令 可 以 删 
除 。 可 以 重复 执行 这 种 操作 以 删 去 一 系列 指令 。 例 如 ， 为 了 调试 ， 一 个 大 程序 中 的 某 些 程序 段 
只 有 在 变量 debug 为 1 的 情况 下 才 会 被 执行 。 在 C 中 ， 源 代码 可 能 如 下 所 示 : 


#define debug 0 
if ( debug ) { 
显示 调试 信息 
在 中 则 表示 中 ,让 语句 可 能 被 翻译 为 
if debug = 1 goto L1 


goto L2 9-8 
了 >: 显示 调试 信息 O8) 
_ L2: 


一 种 明显 的 窥 孔 优化 是 删除 转移 之 后 的 转移 指令 。 这 样 ， 无 论 debug 的 值 是 多 少 都 可 以 将 (9- 
DEKH 


if debug + 1 goto L2 


显示 调试 信息 
L2: * (9-9) 
BLE, BERR debug 在 程序 的 开始 被 置 成 0 ， 常 量 传播 会 将 (9-9) 替 换 成 
if 0 # 1 goto L2 
ha: 显示 调试 信息 (9-10) 


由 于 (9-10) 的 第 一 条 语句 的 参数 值 是 常数 true， 因 此 可 以 将 它 替 换 为 goto L2。 这 样 所 有 打印 


O 生成 汇编 代码 的 一 个 好 处 是 可 以 提供 标号 ， 这 将 简化 这 种 窥 孔 优化 。 如 果 要 生成 机 器 代码 ， 而 且 要 求 进行 
窥 孔 优化 ， 那 么 我 们 可 以 使 用 一 个 位 来 标记 具有 标号 的 指令 。 
O 要 说 明 aebug 具 有 值 0 我 们 需要 执行 全 局 “到 达 定 义 ”数据 流 分 析 ， 正 如 第 10 章 所 讨论 的 。 
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调试 信息 的 语句 显然 都 是 不 可 达 的 ， 可 以 一 次 一 条 地 被 删除 。 
9.9.3 控制 流 优化 
第 8 章 的 中 间 代 码 生成 算法 经 常会 产生 无 条 件 转移 到 无 条 件 转移 指令 、 无 条 件 转移 到 条 件 
转移 指令 或 条 件 转移 到 无 条 件 转移 指令 的 转移 语句 。 通 过 下 面 这 种 窥 孔 优化 可 以 在 中 间 代 码 或 
者 目标 代码 中 将 这 些 不 必要 的 转移 语句 删除 。 我 们 可 以 将 转移 序列 
goto L1 
L1: goto L2 
替换 为 
goto L2 
L1: goto L2 
现在 如 果 没 有 转移 到 L1 的 转移 语句 ， 而 且 在 它 之 前 有 一 个 无 条 件 转移 语句 ， 那 么 就 可 以 删 
除 语 名 LI: goto L2。 类 似 地 ， 语 名 序列 
if a < b goto L1 
L1: goto L2 
HURRA 
if a < b goto L2 


L1: goto L2 


最 后 ， 假 设 只 有 一 个 转移 到 L1 的 转移 语句 ， 而 且 在 L1 之 前 有 一 个 无 条 件 转移 指令 ， 那 么 序列 
gato L1 
L1: if a < b goto L2 (9-11) 
L3: f 
可 以 被 替换 为 
if a < b goto L2 
goto 13 (9-12) 
L3: 
虽然 (9-110) 和 (9-12) 的 指令 数 相同 ， 但 有 时 我 们 可 以 跳 过 (9-12) 中 的 无 条 件 转移 指令 ， 而 在 (9-11) 
中 则 不 行 。 因 此 ，(9-12) 在 执行 时 间 上 要 优 于 (9-11)。 
9.9.4 代数 化 简 
利用 窥 孔 优化 可 以 进行 无 数 种 代数 化 简 。 然 而 ， 只 有 几 个 代数 恒等式 经 常 出 现 以 至 于 值得 
考虑 其 实现 。 例 如 ， 像 x:= x+0 或 x:=x*1 这 样 的 语句 经 常用 直接 的 中 间 代 码 生成 算法 生成 ， 
通过 窥 孔 优化 可 以 很 容易 呈 删 除 它 们 。 
9.9.5 强度 削弱 
强度 削弱 是 指 在 目标 机 器 上 用 时 间 开 销 小 的 等 价 操作 代替 时 间 开 销 大 的 操作 。 某 些 机 器 指 


O 如 果 使 用 这 种 窥 孔 优化 ， 我 们 可 以 在 符号 表 中 该 标号 对 应 的 表 项 中 计算 跳 苇 到 该 标号 的 转移 语句 的 数 月 ; 
该 代码 的 搜索 是 不 需要 的 。 
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令 比 别 的 指令 快 ， 费 时 运算 的 某 些 特殊 情况 可 以 用 它们 来 代替 。 例 如 ， 用 x*x 实现 x? 要 比 调 
用 一 个 指数 例 程 快 很 多 。 用 移 位 操作 实现 乘 以 2 或 除 以 2 的 定点 运算 要 更 快 一 些 。 浮 点 数 除 以 常 
RAL (UE) 实现 为 乘 以 常数 ， 邦 样 可 能 会 更 快 一 些 。 
9.9.6 机 器 语言 的 使 用 

目标 机 器 可 以 使 用 一 些 硬 件 指令 来 有 效 地 实现 某 些 特定 的 操作 。 检 测 出 那些 可 以 使 用 这 些 
机 器 指令 的 代码 可 以 大 大 减少 执行 时 间 。 例 如， 有 一 些 机 器 具有 自动 加 1 和 自动 减 1 的 寻 址 模式 。 
这 些 模式 的 运用 可 以 大 大 提高 参数 传递 过 程 中 入 栈 和 出 栈 的 代码 质量 。 这 些 模 式 还 可 以 用 在 形 
A i c= iri 的 语句 的 代码 中 。 


9.10 从 dag 生 成 代码 


本 节 我 们 将 讨论 如 何 利用 dag 表 示 来 生成 基本 块 的 代码 。 利 用 dag 而 不 是 三 地 址 语句 或 四 元 
式 的 线性 序列 ， 我 们 可 以 更 容易 地 看 出 如 何 重新 组 织 最 终 的 计算 顺序 。 我 们 将 重点 讨论 dag 是 
树 的 情况 。 在 这 种 情况 下 可 以 产生 优化 的 代码 ， 我 们 可 以 证 明 其 程序 短 或 使 用 的 临时 变量 数 最 
少 。 中 间 代 码 是 分 析 树 时 也 可 以 使 用 该 算法 。 
9.10.1 重 排 序 

我 们 先 简单 地 考虑 一 下 什么 样 的 计算 顺序 
会 影响 目标 代码 的 开销 。 考 虑 下 面 的 基本 块 ， 
其 dag 如 图 9-18 所 示 ( 该 dag 正 好 是 一 棵 树 )。 
a+b 
c+a 
e- C2 
ti 一 t3 


注意 ， 使 用 8.3 节 的 算法 对 表达 式 (a+b) - (e-(c+d) ) 进行 语 
法 制导 翻译 ， 我 们 可 以 自然 地 获得 该 顺序 。 

如 果 使 用 9.6 节 的 算法 为 这 些 三 地 址 语句 生成 代码 ， 我 们 将 得 到 
图 9-19 中 的 代码 序列 。( 假设 有 两 个 寄存 器 RO 和 R1 是 可 用 的 ， 而 
且 在 基本 块 的 出 口 只 有 ti 是 活跃 的 )。 

另 一 方面 ， 假 设 我 们 重新 组 织 语 多 序 列 如 下 ， 以 便 计算 t1 的 语 
句 刚好 在 计算 ts 的 语句 之 前 : 
c+d 
e-t 
a+b 
ty - t3 


那么 ， 使 用 9.6 节 的 代码 生成 算法 ， 我们 将 得 到 图 9-20 的 代码 序列 
(仍然 假定 只 有 R0 和 R1 是 可 用 的 )。 按 这 种 顺序 进行 计算 ， 我们 能 
够 节省 两 条 指令 : MOV RO, ti (将 RO 中 的 值 保存 到 内 存单 元 ti ) 
和 MOV t!，R1 (将 t, 中 的 值 重 新 加 载 到 寄存 器 R1 中 )。 
9.10.2 对 dag 的 启发 式 排序 

上 述 重 排序 改进 代码 的 原因 在 于 计算 ts 的 语句 正好 紧 跟 在 计算 
ty CREE t 的 左 操 作 数 ) 的 语句 之 后 ， 这 种 排序 的 好 处 是 显而易见 
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图 9-20 修正 后 的 
代码 序列 
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的 。 为 了 有 效 地 计算 t4， 其 左 操作 数 应 放 在 寄存 器 中 ， 而 计算 ti 的 语句 正好 在 ta 之 前 就 可 以 
保证 这 一 点 。 

在 选择 dag 的 节点 顺序 时 ， 惟 一 的 约束 是 必须 保证 该 顺序 保留 了 dag 中 的 边 的 关系 。 回 映 
9.8 节 ， 这 些 边 或 者 表示 操作 符 -操作 数 关 系 ， 或 者 表示 由 于 过 程 调用 、 数 组 赋值 或 指针 赋值 所 
带 来 的 隐 含 约束 。 我 们 提出 下 面 的 启发 式 排序 算法 ， 该 算法 尽量 推迟 计算 这 样 的 节点 ， 该 节点 
紧 跟 在 其 最 左 参 数 的 计算 之 后 。 图 9-21 的 算法 产生 的 是 反 向 顺序 。 


例 9.11 “将 图 9-21 的 算法 应 用 于 图 9-18 中 的 树 所 产生 的 顺序 可 以 用 来 生成 图 9-20 的 代码 ， 
作为 一 个 更 完整 的 例子 ， 考 虑 图 9-22 的 dag。 


(1) while 还 有 未 列 和 人 表 中 的 内 部 节点 do begin 

(2) 选取 一 个 未 列 人 表 的 但 其 全 部 父 节 点 均 已 列 人 表 的 节点 n 

(3) 将 n WARP; 

(4) while n 的 最 左 子 节点 m 不 是 叶 节 点 并 且 其 所 有 父 节点 均 已 列 入 表 中 do 
7* 因为 n 刚 被 列 入 ，m 还 没 被 列 和 #7/ 


begin 
(5) 将 m 列 入 表 中 ; 
(6) nism 





图 9-21 节点 列表 算法 


最 初 没有 未 列 人 表 的 父 节点 的 惟一 节点 是 1， 因 此 我 们 在 第 (2) 行 置 n= 1 并 在 第 (3) 行 将 1 列 
入 表 中 。 现 在 1 的 左 参 数 2 的 父 节 点 已 经 全 部 列 人 表 中 ， 因 此 我 们 将 2 列 人 表 中 并 在 第 (6) 行 置 n 
= 2。 现 在 ， 在 第 (4) 行 我 们 找到 2 的 最 左 子 节点 6， 它 有 一 个 未 列 人 表 的 父 节点 5。 所 以 我 们 在 第 
(2) 行 选择 一 个 新 的 n， 节 点 3 是 惟一 的 候选 节点 。 我 们 将 3 列 和 人 表 中 并 且 沿 着 其 左 链 将 4、5 和 6 
列 人 表 中 。 这 样 内 部 节点 中 只 剩 下 节点 8， 
我 们 将 它 也 列 入 表 中 。 结 果 表 是 1234568。 
所 以 建议 的 计算 顺序 是 8654321。 这 个 顺 
序 对 应 下 面 的 三 地 址 语句 序列 : 





tg =d+ e 

七 6 = & + Pb 

ts = te - c 

ta := ts # ty 

t3 =z t4- e 

t := tẹ + ty 

ti := t2 * t3 图 9-22 一 个 dag 


无 论 机 器 的 寄存 器 个 数 是 多 少 ， 如 果 我 们 使 用 9.6 节 的 代码 生成 算法 ,将 产生 该 dag 的 最 优 代 
码 。 要 注意 的 是 ， 在 这 个 例子 中 ， 我 们 的 排序 启发 在 第 (2) 步 没有 任何 选择 可 做 ， 但 一 般 情况 
下 它 可 以 有 许多 选择 。 口 
9.10.3 树 的 最 优 排序 

在 块 的 dag 表 示 是 一 棵 树 的 情况 下 ， 对 于 9.2 节 的 机 器 模型 ， 我 们 可 以 给 出 一 个 简单 的 、 检 
测 基本 块 中 语句 的 最 优 计算 顺序 的 算法 。 这 里 的 最 优 顺 序 是 指 产 生计 算 该 树 的 最 短 指令 序列 的 
顺序 。 该 算法 已 经 被 用 在 Algol、Bliss 和 C 编译 器 中 。 

该 算法 包括 两 部 分 。 第 一 部 分 用 一 个 整数 自 底 向 上 地 标记 树 的 每 个 节点 ， 整 数 表示 不 用 保 
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存 中 间 结 果 要 计算 该 树 所 需要 的 最 少 的 寄存 器 个 数 ， 算 法 的 第 二 部 分 按照 计算 出 的 节点 标号 的 
顺序 遍历 树 。 结 果 代 码 是 在 树 的 遍历 过 程 中 生成 的 。 

直 党 地 讲 ， 给 定 二 元 运算 的 两 个 操作 数 ， 通 过 首先 计算 需要 更 多 寄存 器 的 操作 数 ， 该 算法 
可 以 发 挥 效 用 。 如 果 两 个 操作 数 所 需要 的 寄存 器 数目 是 相同 的 ， 则 先 计算 哪 一 个 都 可 以 。 
9.10.4 标记 算法 

我 们 用 “ 左 叶 子 ” 来 表示 一 个 叶 节 点 ， 而 且 该 叶 节点 是 其 父 节 点 的 最 左 后 代 。 所 有 其 他 的 
叶 节点 都 称 为 “ 右 叶子 ”。 

标记 过 程 是 按 自 底 向 上 的 顺序 进行 的 ， 以 便 只 有 当 一 个 节点 的 所 有 子 节点 都 被 标记 过 以 后 
才能 访问 该 节点 。 如 果 用 分 析 树 作 中 间 代 码 ， 则 分 析 树 的 节点 生成 顺序 是 合适 的 。 在 这 种 情况 
下 ,标号 可 用 作 语 法 制导 翻译 。 图 9-23 给 出 了 计算 节点 a 的 标号 的 算法 。 有 一 种 重要 的 特殊 情 
B, n 是 二 元 节点 ， 且 其 子 节点 标号 为 I 和 Ll,， 则 第 (6) 行 的 公式 可 以 化 简 为 





max(l, L) Lb 


label(n) = 
abel(n) Hi =L 


(1) 证 "是 叶 节点 then 
这 "是 其 父 节点 的 最 左 儿 主 then 
label(n) := 1 
else label {n} := 0 
else begin /+ n 是 内 部 节点 #/ 


Sn, m, 0, ne RENEE label 排序 的 子 节点 ， 
Att label (ni) = label(n,) > ++ > label (ny); 
label(n) := max (label(n)+i— t1) 
lsisk 


end 





图 9-23 标号 计算 


例 9.12 考虑 图 9-18 中 的 树 。 对 节点 的 后 序 遍历 顺序 为 : a，b，ti，e，c，d，taz，t3， 
tuo 后 序 遍 历 总 是 标记 计算 的 一 种 合适 的 顺序 。 
节点 a 被 标记 为 1， 因 为 它 是 一 个 左 叶 子 。 节 
点 b 被 标记 为 0， 因 为 它 是 右 叶 子 。 节 点 ti 被 标 
记 为 1， 因 为 它 的 子 节点 的 标号 不 相等 ， 而 且 
子 节点 的 最 大 标号 就 是 1。 图 9-24 给 出 了 结果 标 
记 树 。 它 表明 要 计算 ts 需要 两 个 寄存 器 ， 而 且 
事实 上 ， 要 计算 os 就 需要 两 个 寄存 器 。 口 图 9-24 标记 树 
9.10.5 从 标记 树 中 产生 代码 

现在 我 们 给 出 一 个 算法 ， 该 算法 的 输入 是 一 棵 标记 树 7， 其 输出 为 计算 7 并 将 结果 存 人 R0 
中 的 机 器 代码 序列 。( 然后 可 以 将 R0 保存 到 内 存 中 的 合适 位 置 。) 我 们 假定 树 7 中 只 有 二 元 操 
作 符 。 将 操作 符 推 广 到 具有 任意 数目 的 操作 数 并 不 难 ， 我 们 将 它 留 作 一 个 练习 。 

该 算法 使 用 递归 过 程 gencodeln) 来 产生 计算 以 为 根 的 了 的 子 树 的 机 器 代码 ， 并 将 结果 保 
存 到 寄存 器 中 。 过 程 gencode 使 用 栈 rstack 来 分 配 寄存 嚣 。 初 始 时 ，rstack 中 包含 所 有 可 以 使 





日 ”后 序 遍历 递归 地 访问 节点 4 的 子 节点 m1.，r2，…，、mk， 然 后 访问 节点 a。 该 顺序 是 自 底 向 上 语法 分 析 过 程 中 分 
析 树 节点 的 建立 顺序 。 
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用 的 寄存 器 ， 假定 按 顺 序 依次 为 R0，R1，…，R(r-1)。 调 用 过 程 gencode 可 能 会 找到 rstack 
中 寄存 器 的 一 个 子 集 ， 可 能 顺序 会 有 所 不 同 。 当 该 过 程 返回 时 ， 它 将 按照 找到 它们 的 顺序 将 寄 
存 器 留 在 栈 rstack 中 。 结 果 代 码 计算 树 了 的 值 ， 并 将 结果 保存 到 rstack 栈 顶 的 寄存 器 中 。 

函数 swap (rstack) 用 来 交换 rstack 栈 顶 的 两 个 寄存 器 。 使 用 swap 是 为 了 保证 左 儿 子 和 其 
双亲 的 计算 结果 放 在 相同 的 寄存 器 中 。 

WE gencode 使 用 栈 tstack 来 分 配 临时 内 存单 元 。 我 们 假定 tstack 最 初 包含 TO, T1, T2, 
…。 实际 上 ， 如 果 我 们 只 是 记录 i 以 便 Ti 当前 在 栈 顶 ， 则 tstack 不 必用 列表 来 实现 。tstack 的 
内 容 一 直 都 是 TO0，T1，… 的 后 缀 。 

语句 X := pop(stack) 表示 将 栈 顶 元 素 弹 出 并 将 弹出 的 值 赋 给 X, FAR SRT push(stack, 
X) FAH EX HLA stack 中 。top(stack) 代表 stack 的 栈 顶 值 。 

代码 生成 算法 在 7 的 根 节 点 调用 gencode， 过 程 gencode 如 图 9-25 所 示 。 通 过 考查 下 面 的 五 
种 情况 可 以 解释 该 过 程 。 第 0 种 情况 ,我 们 有 一 棵 形 如 下 图 的 子 树 ;. 


CS rane 


也 就 是 说 ，n 是 一 个 叶 节 点 ， 并 且 是 其 父 节点 的 最 左 儿子 。 因 而 我 们 只 是 生成 一 条 装载 指令 。 
第 1 种 情况 ， 我 们 有 一 个 形 如 下 图 的 子 树 : 


(a) name 


我 们 首先 生成 计算 n 的 代码 ， 并 将 结果 存放 到 寄存 器 R= top(rstack) 中 ， 然 后 生成 指令 op 
name ，R。 第 2 种 情况 ， 子 树 形状 如 下 : 


(oP) 
9 (a) 


在 此 ，m 不 用 存储 即 可 计算 , 但 m 要 比 n 难 算 〈 即 需要 更 多 的 寄存 器 )。 对 于 这 种 情况 ， 我 
们 交换 rstack 栈 顶 的 两 个 寄存 器 ， 然 后 计算 n,， 并 将 结果 存 和 人 R = iop(rstac 问 中。 我 们 从 栈 
rstack PRE R 再 计算 n1， 并 将 结果 放 入 5 = top (rstack) 中 。 注 意 ,，5 是 第 2 种 情况 开始 时 
rstack 的 栈 顶 寄存 器 。 然 后 我 们 生成 指令 op R，5， 它 将 产生 n 的 值 并 放 在 寄存 器 S 中 。 再 次 调 
用 过 程 swap 将 栈 rstack 恢复 为 本 次 gencode 调用 开始 时 的 状态 。 

第 3 种 情况 与 第 2 种 情况 类 似 ， 只 是 现在 左 子 树 难 算 ， 要 先 算 左 子 树 。 而 且 也 不 需要 交换 寄 
存 器 。 

第 4 种 情况 是 指 不 存储 时 计算 两 棵 子 树 都 需要 ”个 或 更 多 个 寄存 器 。 因 为 我 们 必须 使 用 临时 
内 存单 元 ， 我 们 首先 计算 右 子 树 ， 并 将 结果 保存 到 临时 内 存单 元 工 中 ， 然 后 再 计算 左 子 树 ， 最 
后 是 根 。 


例 9.13 ”让 我 们 为 图 9-24 中 的 标记 树 生成 代码 ， 首 先 初 始 化 rstack = R0，R1。 对 过 程 
gencode 的 调用 序列 以 及 打印 代码 的 步骤 如 图 9-26 所 示 。 图 中 括号 中 给 出 了 每 次 调用 gencode 
时 栈 rstack 中 的 内 容 〈 栈 顶 在 右 端 )。 此 处 的 代码 序列 是 图 9-20 中 代码 序列 的 置换 。 口 


在 不 考虑 操作 符 代 数 性 质 且 假设 没有 公共 子 表达 式 的 前 提 下 ， 我 们 可 以 证 明 gencode 可 以 
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begin 
/* 情况 0 


procedure gencode (n); 


*/ 


这 “表示 操作 数 rame 的 左 叶 子 ， 而 且 " 是 其 父 节点 的 最 左 儿 子 then 
print ‘Mov’ || name |,’ || top (rstack) 
else ifn EER Nop, AJUT An, 


右 儿 子 为 二 的 内 部 节点 then 
/* 情况 1 */ 
if labei(n,) = 0 then begin 
4 name An PARRER 
gencode (nj), 
print op || name || ',’ || top (rstack) 
end 
A 情况 2 +y 
else 


end 
/* 情况 3 


else 


if 1 < label(n,) < label(n ) and label(n,) < r then begin 
swap (rstack); 

gencode (n,); 

R := pop(rstack), /* nti Fak RP es 
gencode(n,); 

print op |R ||.’ || top(rstack); 

push (rstack, R); 

swap (rstack) 


“7 、 
if 1 < Jabel (n) < label(n,) and label(n,) < r then begin 
gencode (n\); 
:= pop (rstack); /* nm 被 计算 进 寄 存 器 R 中 «7 
gencode (n>); 
print op || top (rstack) | ',’ || R; 
push (rstack, R) 


end 
/+# 情况 4， 两 个 标号 均 >r，" 为 寄存 器 的 总 数 */ 
else begin 
gencode (n 2); 
:= pop (tstack); 
print ‘Mov’ || top (rstack) ||',’ |T; 






gencode (n,); 
push (tstack, TY, 
print op || 7 | || top (rstack) 


图 9-25 函数 gencode 


gencode (t4) Ri Ro] / 情况 2 
gencode (t3) [RoR] /A* 情况 3 
gencode (e) [RoR } _ /we 情况 0 
print MOV e,R, 
gencode (t3) [Ro] /* 情况 1 
gencode (c) [Ro] A/* 情况 0 
print MOV c,Ro 


print ADD d, Rọ 
print SUB Rọ,R; 
gencode(t,) [Ro] 
gencode (a) [Ro] 
print MOV a,Ro 
print ADD b,Rp 
print SUB R,,Ro 





图 9-26 gencode 程序 跟踪 
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产生 最 优 代码 。 要 证 明 此 结论 ， 首 先 要 证 明 所 有 代码 序列 都 必须 执行 下 述 的 操作 ， 具 性 证 明 留 
给 读者 当 作 练习 。 
1. 对 应 每 个 内 部 节点 的 操作 。 
2. 每 个 为 其 父 节点 的 最 左 儿 子 的 叶 节 点 上 的 装 入 。 
3. 其 子 节 点 的 标号 均 大 于 等 于 x 的 每 个 节点 上 的 存储 。 
由 于 gencode 正好 产生 这 些 步骤 ， 因 此 它 将 产生 最 优 代码 。 
9.10.6 多 寄存 器 操作 
我 们 可 以 修改 标记 算法 以 处 理 诸如 乘 、 除 或 函数 调用 等 通常 需要 多 个 寄存 器 的 操作 。 只 是 
简单 地 修改 图 9-23 中 标记 算法 的 第 6 步 , 就 可 使 label(n) 返回 操作 所 需 寄存 器 的 最 小 数目 。 例如 ， 
假设 一 个 函数 需要 所 有 r 个 寄存 器 ， 就 将 (6) 行 换 成 label(n) = r。 如 果 乘 法 需要 两 个 寄存 器 ， 
在 二 元 的 情况 下 : 
7 max(2, {1, l) ly #l, 
label(n) = 人 h=h 
其 中 ll A 是 n 的 子 节点 的 标记 。 
但 是 ， 上 述 修改 方法 并 不 能 保证 对 乘法 、 除 法 或 多 精 操作 而 言 有 一 个 寄存 器 对 是 可 用 的 。 
有 一 些 机 器 使 用 一 种 有 用 的 窗 门 ， 即 假装 乘法 和 除法 需要 三 个 寄存 器 。 如 果 在 gencode 中 总 不 
使 用 swap 的 话 ，rstack 将 总 包含 连续 的 高 序号 寄存 器 ， 对 某 个 i 而 言 ， 就 是 i itl, 0, rlo 
因此 ， 其 中 的 头 3 个 一 定 含有 寄存 器 对 。 由 于 许多 操作 都 是 可 交换 的 ， 所 以 我 们 经 常 可 以 避免 
使 用 gencode 的 第 二 种 情况 ， 即 swap。 而 且 ， 即 使 rstack 的 栈 顶 中 不 包含 三 个 连续 的 寄存 器 ， 
我 们 也 有 很 大 的 可 能 在 rstack 中 的 某 处 发 现 寄存 器 对 。 
9.10.7 代数 性 质 
如 果 我 们 可 以 对 不 同 操作 符 假定 代数 法 则 ， 那 么 我 们 就 可 能 用 带 有 更 小 标号 ( 这 样 可 以 如 
%, gencode 中 第 4 种 情况 的 存储 开销 ) 以 及 /或 者 更 少 左 叶子 ( 可 以 避免 第 0 种 情况 的 装 人 开销 ) 
的 树 来 代替 给 定 的 树 T。 例 如 ， 因 为 + 通常 是 可 交换 的 ， 我 们 就 可 以 用 图 9-27b 中 的 树 来 代替 图 
9-27a 中 的 树 ， 此 举 可 以 减少 一 个 左 叶 子 ， 还 有 可 能 降低 某 些 标号 。 


max(2,/) 





图 9-27 可 交换 及 可 结合 的 变换 
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又 因为 + 通常 在 满足 交换 律 的 同时 也 满足 结合 律 ， 我 们 可 以 将 图 9-27c 中 的 标号 为 + 的 那些 
节点 用 图 9-27d 中 的 左 链 来 代替 。 为 了 使 根 的 标号 最 小 ， 我 们 只 需 使 T 为 TI、 T2, T FT. P 
标号 最 大 的 一 个 ， 同 时 了 ,不 应 是 叶 节点 ， 除 非 TI、T、T3 ATs 都 是 叶 节 点 。 

9.10.8 公共 子 表达 式 

当 基 本 块 中 含有 公共 子 表 达 式 时 ， 相 应 的 dag 将 不 再 是 树 。 公 共 子 表达 式 对 应 的 节点 有 多 
个 双亲 ， 称 为 共享 节点 。 此 时 ， 我 们 不 能 再 直接 应 用 标记 算法 或 gencode。 事 实 上 ， 从 数学 的 
观点 看 ， 公 共 子 表达 式 大 大 提高 了 代码 生成 的 难度 。Bruno and Sethi[1976] 中 证 明了 在 单 寄 存 
器 机 器 上 为 dag 生 成 最 优 代码 是 NP 完 全 的 。Aho ，Johnson，and Ullman[1977al 中 证 明了 即使 在 
具有 无 穷 数目 寄存 器 的 机 器 上 该 问题 仍然 是 NP 完 全 的 。 难 点 在 于 如 何 用 最 小 的 开销 来 确定 计 
算 dag 的 最 优 顺 序 。 

实际 上 ， 如 果 我 们 通过 为 每 个 根 和 /或 共享 节点 n 找到 以 n 为 根 的 最 火 子 树 (该 子 树 不 包 
含 其 他 共享 节点 ， 除 非 它 是 叶 节点 ) 将 dag 划 分 成 树 的 集合 的 话 ， 就 能 得 到 一 个 合理 的 解决 方 
案 。 例 如 ， 图 9-22 中 的 dag 就 可 以 划分 成 图 
9-28 中 的 树 。 每 个 带 有 p 个 双亲 的 共享 节 
点 作为 叶 节 点 至 多 出 现在 p 棵 树 中 。 那 些 
在 同一 棵 树 上 有 多 个 双亲 的 节点 应 该 被 划 
分 成 尽 可 能 多 的 叶 节 点 ， 这 样 就 不 存在 含 
有 多 个 双亲 的 叶 节 点 。 

一 旦 我 们 以 上 述 方式 将 dag 划 分 成 了 
树 ， 我 们 就 可 以 给 树 的 计算 排序 ， 而 且 可 
以 用 前 面 的 任 一 算法 为 每 棵 树 生 成 代码 。 
树 的 顺序 必须 遵循 以 下 原则 : 对 树 计 值 时 ， 
对 应 树叶 的 共享 值 必须 是 可 用 的 。 可 以 对 
那些 共享 的 量 进行 计算 ， 并 将 其 存 人 内 存 





《如 有 足够 多 的 可 用 寄存 器 则 可 以 存在 寄存 O © 
器 中 )。 虽 然 这 一 过 程 在 产生 最 优 代 码 时 并 (9) (10) 
是 令 人 满意 的 。 


9.11 动态 规划 代码 生成 算法 


在 前 一 节 中 ，gencode 可 以 从 一 标 表达 式 树 生成 最 优 代码 ， 所 用 时 间 与 树 的 大 小 成 线性 关 
系 。gencode 适用 于 那些 所 有 计算 都 在 寄存 器 中 完成 并 且 指 令 都 是 由 作用 于 两 个 寄存 器 或 作用 
于 寄存 器 与 内 存单 元 的 操作 构成 的 计算 机 。 

使 用 基于 动态 规划 原理 的 算法 可 以 扩展 可 最 优化 机 器 的 种 类 ， 使 得 我 们 可 以 从 表达 式 树 以 
线性 时 间 为 其 生成 最 优 代码 。 动 态 规划 算法 适用 于 广泛 的 带 有 复杂 指令 集 的 寄存 器 计算 机 。 
9.11.1 一 种 寄存 器 计算 机 

动态 规划 算法 可 以 适用 于 一 切 带 有 可 互 换 寄存 器 ( 将 这 些 寄存 器 记 为 R0，R1，…，Rr-1l ) 
且 指令 格式 为 Ri := 巨 的 计算 机 ， 其 中 互 指 所 有 含 操作 符 、 寄 存 器 和 内 存单 元 的 表达 式 。 如 果 
E 中 含有 一 个 或 多 个 寄存 器 ， 那 么 Ri 必 是 其 中 之 一 。9.2 节 中 提 到 的 机 器 就 是 这 种 模式 。 

例如 ，ADD RO, R1 代表 R1 := R1+R0。 指 邻 ADD *RO, R1 代表 R1 := Rl+ind RO 
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(ind 代表 间接 寻 址 符 )。 

假设 机 器 带 有 装 人 指令 Ri := M. 存储 指令 M := Ri 以 及 寄存 器 到 寄存 器 的 复制 指令 Ri := Rj。 
虽然 动态 规划 算法 经 过 简单 修改 即 可 处 理 每 条 指令 的 开销 各 不 相同 的 问题 ， 但 为 简单 起 见 ， 我 
们 假设 每 一 条 指令 的 开销 都 是 一 样 的 。 
9.11.2 动态 规划 的 原理 

动态 规划 算法 把 为 表达 式 生成 最 优 代 码 的 问题 分 解 成 为 该 表达 式 的 子 表达 式 生 成 最 优 代码 
的 子 问题 。 举 一 个 简单 的 例子 ， 考 虑 形 如 El + E; 的 表达 式 ; EE 的 最 优 程序 由 E 和 E 的 最 优 程 
序 ( 以 一 种 或 另 一 种 顺序 一 一 El E X En E) 和 紧 跟 它们 的 操作 符 + 的 计算 代码 组 成 。 可 以 
类 似 地 解决 为 El 和 E, 生成 最 优 代码 的 子 问题 。 

由 动态 规划 算法 生成 的 最 优 程序 有 一 个 重要 的 特点 ， 对 表达 式 E = E op E Æ “WE” H 
算 的 。 我 们 可 以 通过 观察 E 的 语法 树 T 而 体会 其 中 的 含义 


(0p) 
© 3. 
JIN ZN 
EE, Ti 和 工分 别 是 E 和 E 的 语法 树 。 
9.11.3 邻近 计算 


如 果 程 序 P 先 计算 树 T 的 那些 需要 将 计算 结果 存 人 内 存 的 子 树 ， 我 们 就 说 程序 P 邻近 计算 
WT. Wa P 再 以 Ti、T 然后 根 或 者 Tao T 然后 根 的 顺序 来 计算 了 的 剩余 部 分 ， 不 管 以 何 种 
顺序 ， 只 要 需要 即 可 使 用 前 一 步 中 存 人 内 存 的 结果 。 下 面 举 一 个 非 邻近 计算 的 例子 ，P 可 能 先 
计算 T 并 将 值 放 到 寄存 器 中 ( 而 非 内 存 )， 接 着 计算 不 ， 之 后 再 转 而 计算 7 的 剩余 部 分 。 

对 上 面 定 义 的 寄存 器 机 器 ， 我 们 可 以 证 明 ， 给 定 任意 的 用 于 计算 表达 式 树 7 的 机 器 语言 
序 已 ， 都 可 找到 一 个 与 之 等 价 的 程序 P, P 满足 下 列 条 件 ; 

1. P 的 开销 不 比 P 的 高 。 

2. P 不 比 P 使 用 更 多 的 寄存 器 。 

3. P' 以 邻近 的 方式 计算 树 。 

这 一 结论 暗示 我 们 : 每 一 个 表达 式 树 都 可 由 一 个 邻近 程序 来 进行 最 优化 的 计算 。 

作为 对 比 , 像 IBM System/370 这 样 的 带 有 奇偶 寄存 器 对 的 机 器 , 不 总 是 有 最 优 的 邻近 计算 。 
对 这 些 机 器 ， 我 们 能 够 给 出 一 些 表 达 式 树 的 例子 ， 在 这 些 例子 中 ， 最 优 的 机 器 语言 程序 必须 先 
计算 根 的 左 子 树 的 一 部 分 ， 并 将 结果 存 人 寄存 器 ， 此 后 再 计算 右 子 树 的 一 部 分 ， 接 着 再 计算 左 
子 树 的 另 一 部 分 ， 然 后 是 右 子 树 的 另 一 部 分 ， 依 此 类 推 。 对 于 使 用 普通 寄存 器 机 器 对 任意 表达 
式 树 的 最 优 计算 来 说 ， 这 种 震荡 是 不 必要 的 。 

上 面 定 义 的 邻近 计算 的 性 质 告 诉 我 们 ， 对 于 任何 表达 式 树 了， 总 存在 一 个 最 优 程序 ， 该 程 
序 由 计算 根 的 子 树 的 最 优 程序 ， 跟 以 计算 根 的 指令 组 成 。 这 个 性 质 允 许 我 们 用 动态 规划 算法 为 
树 7 生 成 一 个 最 优 程序 。 

9.11.4 动态 规划 算法 

动态 规划 算法 分 三 个 阶段 进行 。 假 设 目标 机 器 有 r 个 寄存 器 。 在 第 一 个 阶段 ， 自 底 向 上 为 
表达 式 树 T 的 每 个 节点 n 确定 一 个 开销 数组 C， 其 中 第 i 个 元 素 C[i] 是 计算 以 n 为 根 的 子 树 $ 
(其 值 存 人 寄存 器 ) 的 最 佳 开销 ， 这 里 假设 有 i 个 寄存 器 可 用 于 计算 ，1<i<r。 寄 存 器 数量 一 
定时 ， 该 开销 包括 任何 计算 S 所 必需 的 装载 和 存储 ， 还 包括 计算 5 的 根部 操作 符 的 开销 。 开 销 
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向 量 的 第 0 个 元 素 是 计算 子 树 S ( 其 值 存 人 内 存 ) 的 最 佳 开销 。 道 过 只 考虑 合并 计算 5 的 子 树 
的 最 优 程序 ， 该 邻近 计算 性 质 可 以 保证 为 § 生成 一 个 最 优 程序 。 这 个 限制 减少 了 必须 考虑 的 情 
况 的 总 数 。 

为 了 计算 节点 壮 处 的 Cl FERRIES R := E， 其 中 表达 式 EE 与 以 节点 n 为 根 的 子 
表达 式 相 匹配 。 通 过 检查 的 相应 后 代 的 开销 向 量 来 确定 计算 E 的 操作 数 的 开销 。 对 于 E 的 
那些 寄存 器 操作 数 ， 考 虑 能 够 将 7 的 相应 子 树 计算 到 寄存 器 中 的 所 有 可 能 的 顺序 。 在 每 一 种 顺 
序 中 ,使 用 i 个 可 用 的 寄存 器 即 可 计算 与 寄存 器 操作 数 相对 应 的 第 一 棵 子 树 ， 使 用 一 1 个 寄存 
器 即 可 计算 第 二 棵 子 树 ， 依 此 类 推 。 为 了 确定 节点 严 的 开销 ， 把 用 于 匹配 节点 于 的 指令 R := EE 
的 开销 加 入 到 节点 n 的 开销 中 。 那 么 Cli) 的 值 是 所 有 顺序 中 最 小 的 开销 。 

整个 树 7 的 开销 向 量 可 以 通过 自 底 向 上 的 方法 来 计算 ， 而 所 用 时 间 与 了 的 节点 总 数 成 线性 
比例 关系 。 对 每 个 i， 在 每 个 节点 保存 用 于 达到 Cli) 的 最 少 开 销 的 指令 是 很 方便 的 。 在 T 的 树 
根 的 开销 向 量 中 最 小 的 开销 就 是 计算 7 的 最 小 开销 。 

在 该 算法 的 第 二 个 阶段 ,遍历 7， 用 开销 向 量 来 确定 7 的 哪个 子 树 必 须 被 计算 到 内 存 中 。 
在 第 三 个 阶段 ， 遍 历 每 棵 树 ， 并 用 开销 向 量 和 相关 的 指令 来 产生 最 终 的 目标 代码 。 要 先 产 生 
计算 到 内 存单 元 中 的 子 树 的 代码 。 这 两 个 阶段 的 运行 时 间 也 可 以 达到 与 表达 式 树 的 大 小 成 线 
性 比例 关系 。 


例 9.14 考虑 带 有 两 个 寄存 器 RO 和 RI 以 及 如 下 指令 的 机 器 ， 每 条 指令 的 开销 为 1; 


Ri := Mj 
Ri := Ri op Rj 
Ri := Ri op M 
Ri := Rj 


Ri 


这 些 指 令 中 ，Ri 为 RO 或 R1，Mj 是 内 存单 元 。 

让 我 们 用 动态 规划 算法 为 图 9-29 的 语法 树 生成 最 优 代码 。 在 第 一 个 阶段 ， 我 们 先 计算 图 中 
每 个 节点 所 示 的 开销 向 量 。 为 了 说 明 开 销 的 计算 过 程 ， 考 虑 在 叶 节 点 a 的 开销 向 量 。 由 于 a 已 
经 在 内 存 中 ， 所 以 计算 a 到 内 存 中 的 开销 ClO] 是 0。 又 因为 我 们 可 以 用 指令 RO := a 把 a 装载 到 
寄存 器 ， 因 此 计算 a 到 寄存 器 的 开销 C 是 1。 当 只 有 两 个 寄存 器 可 用 时 ，C[2] 是 把 a 装 到 寄 
存 器 的 开销 ， 这 个 开销 与 只 有 一 个 寄存 器 可 用 时 相同 。 因 此 在 叶 节 点 a 的 开销 向 量 为 (0, 1, 1 )。 

考虑 根 节 点 的 开销 向 量 。 我 们 首先 确定 只 有 一 个 和 两 个 寄存 器 可 用 时 计算 根 市 点 的 最 小 开 
销 。 因 为 根 节点 标 有 + 操作 符 ， 所 以 机 器 指令 RO := RO+M 与 根 节点 相 匹 配 。 使 用 该 指令 ， 在 一 
个 寄存 器 可 用 时 计算 根 节点 的 最 小 开销 等 于 将 其 右 子 树 计 算 到 内 存 中 的 最 小 开销 与 将 其 左 子 树 
计算 到 寄存 器 的 最 小 开销 之 和 ， 再 加 上 该 指令 的 开销 1。 不 存在 其 他 方法 。 根 节点 的 右 儿 子 和 和 
左 儿子 处 的 开销 向 量 说 明 在 一 个 寄存 器 可 用 时 计算 根 节点 的 最 小 开销 是 5+2+1=8。 





图 9-29 (a-b)+c* (d/e) 的 带 开 销 向 量 的 语法 树 
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SLE ES Ay A A), PR A ES A REE 
右 子 树 的 顺序 ， 将 导致 三 种 情况 出 现 。 

1. 两 个 寄存 器 可 用 时 将 左 子 树 计算 到 寄存 器 RO0 ， 一 个 寄存 器 可 用 时 将 右 子 树 计算 到 R1 ， 
再 使 用 指令 RO := RO+RL 计算 根 节点 。 这 个 序列 开销 为 2+ 5+1= 8。 

2. 两 个 寄存 器 可 用 时 将 右 子 树 计算 到 R1， 一 个 寄存 器 可 用 时 将 左 子 树 计 算 到 寄存 器 RO， 
再 使 用 指令 RO := RO + R1。 该 序列 开销 为 4+2+1=7。 

3. 计算 右 子 树 ， 并 存 入 内 存单 元 M， 两 个 寄存 器 可 用 时 计算 左 子 树 ， 并 存 入 寄存 器 RO, FE 
使 用 指令 RO := R0 + M。 该 序列 开销 为 5S+2+1=8。 

第 二 种 选择 开销 最 小 ， 为 7。 l 

将 根 计 算 到 内 存 的 最 小 开销 等 于 所 有 寄存 器 可 用 时 计算 根 的 最 小 开销 加 上 1。 也 就 是 说 ， 
将 根 计 算 到 寄存 器 ， 再 保存 结果 。 因 此 ， 和 

从 上 述 开 销 向 量 ， FRIET LARA S eE E R S 。 从 图 9-29 中 的 树 开始 ， 
假设 有 两 个 寄存 器 可 用 ， 最 优 代码 序列 为 : 





RI e 
* R4 


R1 -~ b 

R1 + RO ð 
这 种 技术 最 初 是 在 Aho and Johnsonf 1976] 中 提出 的 ， 该 技术 已 被 用 到 了 大 量 的 编译 器 上 ， 

其 中 包括 S.C.Johnson 的 可 移植 C 编 译 器 的 第 二 版 (PCC2 )。 这 种 技术 还 有 利于 重 置 目标 的 实现 ， 

这 是 因为 动态 规划 技术 可 以 应 用 于 很 多 机 型 。 


9.12 代码 生成 器 的 生成 器 


代码 生成 包括 选择 操作 的 计算 顺序 、 分 配 寄存 器 以 及 选择 合适 的 目标 语言 指令 来 实现 中 间 
表示 中 的 操作 符 等 。 妈 使 我 们 假定 计算 顺序 已 经 给 定 ， 而且 寄存 器 的 分 配 是 由 单独 的 机 制 处 理 
的 ， 解决 怎样 选择 指令 的 问题 也 是 一 项 艰巨 的 任务 ， 在 带 有 多 种 寻 址 方式 的 机 器 上 更 是 如 此 。 
在 本 节 中 ， 我 们 介绍 了 重 写 树 技术 ， 重 写 树 技术 可 用 于 从 目标 机 器 的 高 级 描述 出 发 ， 自 动 构造 
代码 生成 器 的 指令 选择 阶段 。 

9.12.1 采用 重 写 树 技术 的 代码 生成 

本 节 中 ， 代 码 生成 过 程 的 输入 是 一 系列 目标 机 器 上 的 语义 树 。 这 些 树 可 以 通过 将 运行 时 地 

址 插入 中 间 表 示 来 获得 ， 正 如 9.3 节 所 述 。 
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例 9.15 ”图 9-30 是 赋值 语句 a[i1 := 一 ™ ， 
b+1 的 树 ， 其 中 a 和 i 是 局 部 变量 ， 它 | Z N . 
们 的 运行 时 地 址 由 相对 于 sP 的 偏 移 量 meme Gene 
const. 和 const; 给 出 ， 此 时 寄存 器 中 .和 
包含 的 是 指向 当前 活动 记录 开始 位 置 的 。 ol。 No。 | 
指针 。 数 组 a 存在 运行 时 栈 中 。 对 a [i] Z N 
的 赋值 是 间接 赋值 ，a [i] 的 位 置 的 右 值 const; regse 


被 设 为 表达 式 b+ 1 的 右 值 。 数 组 a 的 地 图 9-30 alil :=p+1 的 中 间 代 码 树 


a 


un 
~ 
N 


an 
~ 
w 
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址 等 于 常数 const. 的 值 加 上 寄存 器 SP 中 的 值 ，i 的 值 所 在 的 位 置 等 于 常数 const, 的 值 加 
上 寄存 器 SP 中 的 值 。 变 量 b 是 内 存单 元 mem, 处 的 全 局 变量 。 为 简单 起 见 ， 我 们 假设 所 有 的 
变量 都 是 字符 类 型 的 。 

在 该 树 中 ，ina 操作 符 将 其 参数 视 为 内 存 地 址 。 作 为 赋值 操作 符 的 左 儿 子 ，ina 节点 给 出 
了 赋值 操作 符 右 部 的 右 值 被 存 人 的 内 存单 元 。 如 果 参 数 a+ 或 者 ind 操作 符 是 一 个 内 存单 元 或 
是 一 个 寄存 器 ， 那 么 该 内 存单 元 或 寄存 器 的 内 容 会 被 当 作 该 值 。 该 树 的 叶 节 点 是 带 有 下 标的 类 
型 属性 ， 下 标 指出 了 属性 的 值 。 口 


通过 将 一 系列 重 写 树 规则 应 用 到 这 棵 树 上 ， 可 以 将 此 输入 树 归 约 为 单个 节点 ， 在 此 过 程 中 
即 可 生成 目标 代码 。 每 个 重 写 树 规则 是 如 下 形式 的 语句 : 

replacement +- template {action} 
其 中 ， 

1. replacement 是 单个 节点 。 

2. template 是 一 棵 树 。 

3. action 是 一 个 代码 片段 ， 就 像 在 语法 制导 翻译 模式 中 那样 。 
重 写 树 规则 的 集合 叫做 树 翻 译 模 式 。 

每 个 树 模板 代表 由 相关 动作 发 出 的 一 系列 机 器 指令 所 执行 的 计算 。 通 常 ， 一 个 模板 仅 对 应 
一 条 机 器 指令 。 模 板 的 叶 节点 是 带 有 下 标的 属性 ， 就 像 输入 树 里 那样 。 通 常 对 模板 中 下 标的 值 
会 施加 某 些 限制 ， 这 些 限 制 用 语义 谓词 来 描述 ， 只 有 满足 这 些 语义 谓词 才能 进行 模板 匹配 。 例 
如 ， 一 个 谓词 可 能 规定 一 个 常量 只 能 在 某 一 特定 区 间 内 取 值 。 

树 翻 译 模 式 可 以 很 方便 地 表示 代码 生成 器 的 指令 选择 阶段 。 作 为 重 写 树 规则 的 例子 ， 考 虑 
寄存 器 到 寄存 器 加 法 指令 的 规则 : 


reg, + + { ADD Rj,Ri} 


reg; reg; 


可 以 像 下 面 这 样 来 使 用 该 规则 。 如 果 输 入 树 中 包含 一 棵 匹配 该 树 模板 的 子 树 ， 也 就 是 说 ， 该 子 
树 的 根 标 有 操作 符 + ， 而 且 其 左右 儿子 是 寄存 器 ;和 和 寄存器) 中 的 量 ， 那 么 我 们 可 以 用 一 个 标 有 
regi 的 单个 节点 来 替换 该 子 树 ， 并 输出 指令 ADD R, Rio 在 给 定时 间 可 能 有 多 个 模板 匹配 一 棵 
子 树 ， 我 们 应 该 简短 地 描述 一 些 机 制 ， 以 决定 在 冲突 的 情况 下 应 用 哪 条 规则 。 假 设 寄存 器 分 配 
是 在 代码 选择 之 前 完成 的 。 


例 9.16 ”图 9-31 含 有 用 于 目标 机 器 少数 指令 的 重 写 树 规则 。 这 些 规则 将 用 在 一 个 贯穿 本 节 
的 运行 示例 上 。 头 两 条 规则 对 应 装载 指令 ， 接 下 来 的 两 条 规则 对 应 存储 指令 ， 剩 下 的 规则 对 应 
索引 装载 和 加 法 指令 。 注 意 规则 (8) 要 求 常 量 的 值 为 1。 该 条 件 将 用 语义 谓词 表示 。 口 


树 翻译 模式 按 下 面 的 方式 工作 。 给 定 一 棵 输入 树 ， 将 重 写 树 规则 中 的 模板 应 用 到 它 的 子 树 
上 。 如 果 一 个 模板 匹配 了 一 棵 子 树 ， 则 用 规则 中 的 替换 节点 替换 输入 树 中 的 匹配 子 树 ， 并 执行 
与 该 规则 相关 联 的 动作 。 如 果 该 动作 包含 一 系列 机 器 指令 ， 则 输出 这 些 指令 。 重 复 该 过 程 直到 
这 棵 树 被 归 约 为 单个 节点 ,或 者 再 没有 模板 匹配 为 止 。 当 输入 树 归 约 为 单个 节点 时 ， 生 成 的 机 
器 指令 序列 就 构成 了 在 给 定 输 入 树 上 的 树 翻译 模式 的 输出 。 

详细 说 明代 码 生 成 器 的 过 程 与 使 用 语法 制导 翻译 模式 说 明 翻 译 器 的 过 程 类 似 。 我 们 编写 了 
一 个 树 翻 译 模 式 来 描述 目标 机 器 的 指令 集 。 实 际 上 ， 我 们 吏 愿 意 寻 找 一 种 模式 ， 对 于 每 个 输入 
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树 ， 它 能 生成 一 个 最 小 开销 的 指令 序列 。 有 几 个 工具 可 以 帮助 我 们 从 树 翻 译 模式 自动 建立 代码 
生成 器 。 











(1) reg; - const, { Mov #c, Ri } 











(2) reg; - mem, { MOV a,Ri } 
(3) mem + := { MOV Ri,a} 
mem, reg; 








(4) mem - := { MOV Rj, *Ri } 
ind reg; 
reg, 





(5) reg; - ind { MOV c( Rj), Ri } 











const, regj 
| 
(6) reg; +- + { ADD c(Rj),Ri } 
reg, ind 
+ 
const, reg; 
| 
(7) reg; - + { ADD Rj, Ri} 
reg; reg, 





+ { INC Ri } 
人 N 
reg; const, 


n 1 
图 9-31 用 于 某 些 目标 机 器 指令 的 重 写 树 规则 
例 9.17 让 我 们 用 图 9-31 的 树 翻 译 模式 为 图 9-30 的 输入 树 生 成 代码 。 假 设 用 第 一 个 规则 
(1) rego - const, { MOV #a,R0 } 


把 常数 a 装 人 寄存 器 R0。 从 而 最 左 叶 节点 的 标号 从 const, 变 为 reg0 ， 并 生成 指令 MOV #a, 
R0。 现 在 第 7 条 规则 








(7) rego - ~、 { ADD SP,RO} 
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与 以 标号 为 + 的 节点 为 根 的 最 左 子 树 相 匹配 。 使 用 这 条 规则 ， 我 们 将 该 子 树 重 写 为 标 以 rego 
的 单个 节点 ， 并 生成 指令 ADD SP，R0。 现 在 这 棵 树 如 下 所 示 : 

-一 . 

| 


+ mem, const, 


i 


rego ind 


oN 


const, regsp 


现在 ， 我 们 应 该 使 用 规则 (5) 来 把 子 树 


ind 
了 入 
const, regsp 
归 约 为 标 以 reg: 的 单个 节点 。 然 而 ， 我 们 还 可 以 使 用 规则 (6) 继 续 将 稍 大 的 子 树 


了 入 
rego ind 


“ON 
const; regsp 


AZAR rego 的 单个 节点 ， 并 生成 指令 ADD i (SP) ，R0。 假 设 使 用 单条 指令 计算 大 子 树 
比 计算 小 子 树 的 效率 高 ， 我 们 选择 后 面 的 归 约 得 到 


12 
-一 NS 
ind + 
Z N 
rego mem, const, 


在 右 子 树 中 ， 将 规则 (2) 应 用 于 叶 节点 mem, 。 该 规则 生成 一 条 将 b 装 人 寄存 器 1 的 指令 。 现 在 ， 
使 用 规则 (8) 可 以 匹配 下 面 的 子 树 ， 并 生成 加 1 指令 INC R1。 
/~ 
reg, const, 


现在 ， 输 入 树 已 经 被 归 约 为 


| rego 
剩 下 的 树 被 规则 (4) 匹 配 ， 它 将 这 棵 树 归 约 为 单个 节点 ， 并 生成 指令 MOV R1，*R0。 
在 该 树 归 约 为 单个 节点 的 过 程 中 ， 我 们 生成 了 下 耐 的 代码 序列 : 


MOV #a,R0 
ADD SP,RO 
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ADD i(SP),RO 

MOV b,R1 

INC R1 

MOV R1,#RO 口 

上 述 树 的 归 约 过 程 还 有 几 个 方面 需要 进一步 说 明 。 我 们 没有 详细 说 明 树 的 模式 匹配 是 怎样 
进行 的 。 我 们 也 没有 详细 说 明 模 板 匹 配 的 顺序 ， 或 者 当 有 多 个 模板 能 匹配 时 应 该 怎么 办 。 另 
外 ,请 注意 ， 如 果 没 有 模板 匹配 ， 则 该 代码 生成 过 程 将 被 阻塞 。 在 另 一 种 极端 的 情况 下 ， 可 
能 无 休止 地 重 写 一 个 单个 节点 ， 从 而 生成 一 个 寄存 器 移动 指令 的 无 穷 序列 或 者 装 和 人 和 存储 指 
令 的 无 穷 序 列 。 

高 效率 地 执行 树 模式 匹配 的 一 种 方法 是 将 练习 3.32 中 的 多 关键 字模 式 匹配 算法 扩展 为 自 顶 
向 下 的 树 模 式 匹 配 算法 。 每 个 模板 可 以 用 一 个 串 集合 来 表示 , 即 用 根 到 叶子 的 路 径 集 合 来 表示 。 
从 这 些 串 的 集合 ， 我 们 可 以 构造 一 个 像 练 习 3.32 那 样 的 树 模式 匹配 器 。 

使 用 树 模式 匹配 并 与 前 一 节 的 动态 规划 算法 相 结合 可 以 解决 排序 和 多 重 匹配 问题 。 通 过 将 
每 个 重 写 树 规则 与 应 用 该 规则 所 生成 的 机 器 指令 序列 的 开销 联系 在 一 起 ， 可 以 为 树 翻译 模式 增 
加 开销 信息 。 

实际 上 ， 在 对 输入 树 的 深度 优先 遍历 过 程 中 运行 树 模式 匹配 器 ， 并 在 节点 最 后 一 次 被 访问 
时 执行 归 约 即 可 实现 重 写 树 过 程 。 如 果 我 们 并 发 地 运行 动态 规划 算法 ,使 用 与 每 个 规则 相关 联 
的 开销 信息 就 能 选择 一 个 最 优 的 匹配 序列 。 我 们 可 能 需要 推迟 决定 一 个 匹配 直到 所 有 可 选 规则 
的 开销 都 已 知道 为 止 。 使 用 这 种 方法 ， 从 树 翻译 模式 可 以 快速 地 建立 一 个 高 效率 的 小 型 代码 生 
成 器 。 此 外 ， 动 态 规划 算法 使 代码 生成 器 的 设计 者 不 必 去 解决 冲突 匹配 或 确定 计算 顺序 。 
9.12.2 借助 语法 分 析 的 模式 匹配 

另 一 种 方法 是 使 用 LR 语法 分 析 器 进行 模式 匹配 。 通 过 使 用 其 前 级 表示 可 以 将 输入 树 看 作 
一 个 串 。 例 如 ， 图 9-30 中 的 树 的 前 缀 表示 为 : 


:= ind + + const, regsp ind + const, regsp + mem, const, 


通过 把 重 写 树 规则 替换 为 上 下 文 无 关 文法 的 产生 式 ， 可 以 将 树 翻 译 模式 转化 成 语法 制导 翻 
译 模式 ， 其 中 ， 产 生 式 的 右 部 是 指令 模板 的 前 组 表示 。 


例 9.18 图 9-32 中 的 语法 制导 翻译 模式 是 基于 图 9-31 的 树 翻译 模式 转换 而 来 的 。 口 


使 用 第 4 章 的 一 种 LR 语 法 分 析 器 构造 技术 ， 我 们 可 以 从 该 翻译 模式 的 产生 式 建 立 一 个 LR 语 
法 分 析 器 。 通 过 输出 与 每 个 产生 式 对 应 的 机 器 指令 即 可 生成 目标 代码 。 


reg; > const, { MOV #c, Ri} 
reg; 一 men, { Mov a, Ri } 
mem > := mem, reg; { MOV Ri, a } 
mem 一 := ind reg; reg, { MOV Rj, *Ri } 


reg; > ind + const, reg; { MOV c(Rj), Ri } 
reg; > + reg; ind + const, reg; {ADD c(Rj),Ri} 
reg; > + reg; regj { ADD Rj, Ri} 
reg; > + reg; const, { INC Ri } 





图 9-32 从 图 9-31 构 造 出 的 语法 制导 翻译 模式 
代码 生成 文法 通常 具有 很 高 的 二 义 性 ， 而 且 在 建立 语法 分 析 器 时 ， 要 更 多 地 将 注意 力 放 到 


怎样 解决 语法 分 析 动作 的 冲突 上 面 。 在 缺乏 开销 信息 的 情况 下 ， 一 般 的 规则 是 最 大 归 约 优先 。- 


这 意味 着 在 归 约 - 归 约 冲突 的 情况 下 ， 采 用 长 归 约 ; 而 在 移 进 - 归 约 冲突 时 ， 则 选择 移 进 。 这 种 
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“最 大 贪 吃 ” 方 法 使 得 大 量 的 操作 用 单机 器 指令 执行 。 

代码 生成 时 使 用 LR 语 法 分 析 器 有 如 下 几 个 优点 。 首 先 ， 这 种 语法 分 析 方 法 是 高 效率 的 、 
很 好 理解 的 ， 因 此 我 们 可 以 使 用 第 4 章 描述 的 算法 来 产生 可 靠 的 和 高 效率 的 代码 生成 器 。 其 次 ， 
可 以 相对 容易 地 为 代码 生成 器 重 置 新 的 目标 机 器 ; 通过 写 一 个 文法 来 描述 新 机 器 的 指令 ， 就 可 
以 为 新 机 器 构造 一 个 代码 选择 器 。 第 三 ， 为 了 充分 利用 机 器 的 习惯 用 法 ， 我 们 可 以 增加 特殊 情 
况 产生 式 ， 以 使 生成 的 代码 效率 更 高 。 

当然 ， 使 用 这 种 方法 也 存在 一 些 困 难 。 语 法 分 析 方 法 决定 了 计算 顺序 只 能 是 自 左 而 右 的 顺 
序 。 而且， 对 于 一 些 带 有 大 量 寻 址 方式 的 机 器 来 说 ,机 器 的 描述 文法 和 产生 的 语法 分 析 器 可 能 
变 得 非常 大 。 因 而 ,我 们 需要 特别 的 技术 来 编码 和 处 理 机 器 描述 文法 。 我 们 还 必须 小 心 谨慎 以 
防 产生 的 语法 分 析 器 在 分 析 表 达 式 树 时 阻塞 (没有 下 一 移动 )， 原 因 是 文法 没有 处 理 某 些 操作 
模式 ， 或 者 语法 分 析 器 在 语法 分 析 动 作 冲 突 时 做 出 了 错误 的 决定 。 我 们 还 要 确保 语法 分 析 器 不 
会 因为 使 用 单产 生 式 (产生 式 右 部 只 有 一 个 符号 ) 妇 约 而 陷入 无 限 循环 。 生 成 语法 分 析 表 时 使 
用 状态 分 离 技术 可 以 解决 这 种 循环 问题 ( 见 Glanville[1977] )。 

9.12.3 用 于 语义 检查 的 例 程 

输入 树 的 叶 节 点 是 带 有 下 标的 类 型 属性 ， 其 中 ， 下 标 将 一 个 值 与 属性 关联 起 来 。 在 代码 生 
成 翻译 模式 中 ， 会 出 现 相同 的 属性 ， 但 是 通常 对 下 标的 取 值 做 了 限制 。 例 如 ， 一 个 机 器 指令 可 
能 要 求 属性 在 某 个 特定 区 间 内 取 值 或 者 要 求 两 个 属性 的 值 有 联系 。 

这 些 对 属性 值 的 限制 可 以 用 谓词 来 说 明 ， 并 在 归 约 之 前 调用 这 些 谓词 。 实 际 上 ， 与 纯粹 的 
代码 生成 器 语法 说 明 相 比 ， 语 义 动 作 和 谓词 的 使 用 可 以 提供 更 大 的 灵活 性 并 且 易 于 描述 。 尊 通 
的 模板 用 于 表示 指令 类 ， 而 语义 动作 即 可 用 于 为 特殊 情况 选择 指令 。 例 如 ， 加 法 指令 的 两 种 形 
式 能 够 用 一 个 模板 表示 : 








reg - + { if c = 1 then 
i . 
INC Ri 
了 \ else 
reg; const, . 
ADD #c,Ri } 


利用 消除 二 义 性 谓词 可 以 解决 语法 分 析 动 作 冲 突 ， 即 在 不 同 的 上 下 文 环境 下 允许 使 用 不 同 
的 选择 策略 。 用 更 小 的 描述 描写 目标 机 器 是 有 可 能 的 ， 因 为 机 器 体系 结构 的 某 些 方面 ( 例如 寻 
址 模式 ) 能 被 表示 为 属性 。 这 种 方法 的 复杂 之 处 在 于 ， 作 为 对 目标 机 器 的 忠实 描述 ， 验 证 属性 
文法 的 准确 性 将 变 得 非常 困难 ， 尽 管 这 个 问题 在 某 种 程度 上 存在 于 所 有 的 代码 生成 器 中 。 


练习 


9.1 假定 所 有 变量 都 是 静态 变量 , 对 于 9.2 节 的 目标 机 器 , 试 为 下 面 的 C 语 言语 名 生成 代码 。 
假定 有 三 个 寄存 器 是 可 用 的 。 


1 
y 

x + 1 

a+tb*#*#ec 

a/ (b+c) - d»(e+f) 


a) X 
b) x 
c) X 
d) X 
e) X 


9.2 假定 所 有 的 变量 都 是 自动 的 〈 在 栈 中 分 配 的 )， 重 做 练习 9.1。 


93 假定 所 有 变量 都 是 静态 变量 , 对 于 9.2 节 的 目标 机 器 , 试 为 下 面 的 C 语 言语 句 生 成 代码 。 
假定 有 三 个 寄存 器 是 可 用 的 。 
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a) x = ali] + 1 
b) alij = blefil] 
c) ali][j] = bliJik] * cik][j] 
d) ali] = ali] + b[j] 
e) ali] += bfj] 
9.4 使 用 下 面 的 方法 做 练习 9.1: 
a) 使 用 9.6 节 的 算法 。 
b) 使 用 过 程 gencode。 
co) 使 用 9.11 节 的 动态 规划 算法 。 
9.5 试 为 下 列 C 语 言语 句 生成 代码 : 
a) x = f(a) + f(a) + f(a) 
b) x = £(a)/g(b,c) 
c) x = £(f£(a)) 
d) x = ++f (a) 
e) #pt+ = A++ 
9.6 试 为 下 面 的 C 语 言 程序 生成 代码 ; 
main() 
{ 
int i; 
int a[ 10]; 
while (i <= 10) 
ali] = 0; 
} 
97 假定 对 于 图 9-13 中 的 循环 我 们 分 配 三 个 寄存 器 来 保存 a、b 和 c。 试 为 该 循环 的 基本 
块 生成 代码 ， 并 比较 一 下 你 的 代码 与 图 9-14 中 的 代码 的 开销 。 
9.8 试 为 图 9-13 中 的 程序 构造 寄存 器 冲突 图 。 
9.9 假定 为 简单 起 见 ， 在 每 次 程序 调用 之 前 我 们 自动 将 所 有 的 寄存 器 保存 到 栈 中 《〈 或 者 内 
存 中 ， 如 果 没 有 使 用 栈 的 话 )， 并 在 返回 后 恢复 它们 。 这 对 公式 (9-4) ( 该 公式 用 于 计 
算 将 寄存 器 分 配给 循环 中 给 定 变 量 的 效用 ) 会 产生 怎样 的 影响 ? 
9.10 修改 9.6 节 的 函数 gerreg 使 其 在 需要 时 返回 寄存 器 对 。 
9.11 试 给 出 一 个 dag 的 例子 ， 使 得 使 用 图 9-21 中 节点 的 启发 式 排序 不 会 给 出 该 dag 的 最 佳 


顺序 。 
*9.12 试 为 下 面 的 赋值 语句 生成 最 优 代 码 : 
ax:azaat+DbA#c 


b) x := (ay -b) + (c - (d + e)) 
c) x := (a/b - c)/a 

d) x := a + (b+ c/dee)/(feg - hei) 

e) ali,j] := b[i,j] - clafk,1J}] * dli+j] 


9.13 试 为 下 面 的 Pascal 程序 生成 代码 : 


program forloop(input, output); 
var i, initial, final: integer; 
begin 
read(initial, final); 
for i:= initial to final do 
writeln(i) 
end. 
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9.14 试 为 下 面 的 基本 块 构造 dag: 


d :=b*c 
e := a+b 
b := bee 
a := e-d 


9.15 在 下 列 条 件 下 ， 对 于 练习 9.14 中 的 dag， 合 法 的 计算 顺序 和 节点 的 值 的 名 字 是 什么 ? 
a) 假定 a、b 和 c 在 基本 块 的 末尾 是 活跃 的 。 
b) 假定 只 有 a 在 基本 块 的 末尾 是 活跃 的 。 

9.16 在 练习 9.15(b) 中 ， 如 果 我 们 要 为 只有 一 个 寄存 器 的 机 器 生成 代码 ， 哪 个 计算 顺序 是 
最 好 的 ?为 什么 ? 

9.17 我 们 可 以 修改 dag 构造 算法 以 考虑 给 数组 赋值 及 通过 指针 的 赋值 。 当 一 个 数组 的 任 
何 元 素 被 赋值 时 ， 我 们 都 假定 为 该 数组 生成 了 一 个 新 值 。 这 一 新 值 由 一 个 节点 来 表 
示 ， 节 点 的 子 节点 是 数组 的 旧 值 、 数 组 的 下 标 值 以 及 被 赋 的 新 值 。 通 过 指针 的 赋值 
时 ， 我 们 假定 我 们 已 经 为 指针 可 能 指向 的 每 一 个 变量 都 生成 了 一 个 新 值 ， 对 应 每 个 
新 值 的 节点 的 子 节点 是 指针 的 值 以 及 变量 的 旧 值 。 基 于 这 些 假设 ， 试 为 下 面 的 基本 
块 构造 dag: 


假定 (a)p 可 以 指向 任何 地 方 ，(b)p 只 指向 b 或 a。 不 要 忘 了 给 出 隐 含 的 顺序 限制 。 
9.18 WR a[i] 或 *p 这 样 的 指针 或 数组 表达 式 被 赋值 ， 然 后 被 引用 ， 而 且 其 值 在 赋值 和 引 
用 之 间 不 可 能 改变 ， 我 们 可 以 识别 并 利用 这 一 状况 以 简化 dag。 例 如 ， 在 练习 9.17 的 
代码 中 ， 由 于 p 在 第 2 条 和 第 4 条 语句 之 间 没 有 被 赋值 ， 因 此 语句 e := *p 可 以 用 e := 
c 来 替代 (尽管 我 们 不 知道 p 指向 哪儿 ， 但 我 们 确信 无 论 p 指向 什么 变量 其 值 都 会 与 
c 值 相 同 )。、 利 用 该 推论 修改 dag 构造 算法 。 应 用 你 的 算法 为 练习 9.17 的 代码 构造 dag。 
**¥ 9.19 在 例 9.14 的 n 寄存 器 机 器 上 ， 设 计 一 个 算法 为 形 如 a := bic 的 三 地 址 语句 序列 生成 
最 优 代码 。 必 须 按 给 定 的 顺序 执行 各 语句 。 你 的 算法 的 时 间 复 杂 性 是 多 少 ? 


参考 文献 注释 
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[1974] 中 讨论 了 将 引用 计数 作为 为 基本 块 生成 好 的 代码 的 辅助 手段 。Belady [1966] 中 说 明了 
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getreg 使 用 的 一 种 获得 空 闪 寄存 器 的 策略 在 交换 页 上 下 文中 是 最 优 的 ， 它 通过 释放 一 个 其 值 最 
长 时 间 没 有 被 使 用 的 变量 的 寄存 器 来 获得 空闲 寄存 器 。Marill[1962] 中 提 到 了 我 们 所 用 的 分 配 
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Fortran H 的 实现 中 。 
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基于 优先 级 的 图 染色 算法 。Kennedyf1972]、Harrison[1975] 、Johnsson[1975] 、Beatty[1974] 和 
Leverett[1982] 中 分 别 讨 论 了 一 些 其 他 的 寄存 器 分 配 算法 。 

9.10 节 的 标记 算法 是 对 河流 命名 算法 的 模仿 : 一 个 主 河流 和 一 个 小 支流 汇合 后 继续 使 用 主 河 
流 的 名 字 ; 两 个 相等 河流 汇合 后 被 赋 以 一 个 新 名 字 。 标 记 算 法 最 初出 现在 Ershov[1958] 中 。 
Anderson[1964] Nievergelt [1965] 、Nakata[1967]、Redziejowski [1969] 和 Beatty[1972] 中 分 别提 出 了 
使 用 这 种 方法 的 代码 生成 算法 。Sethi and Ullman[1970] 在 一 个 算法 中 使 用 了 标记 方法 ， 他 们 还 能 
证 明 该 算法 在 许多 种 情况 下 可 以 为 表达 式 树 生 成 最 优 代码 。9.10 节 中 的 过 程 gencode 就 是 
Stockhausen[1973] 对 Sethi 和 Ullman 算 法 的 修正 。 如 果 目 标 机 器 其 有 必须 按 栈 使 用 的 寄存 器 ， 则 
Bruno and Lassagne[1975] 以 及 Coffman and Sethi[1983] 中 给 出 了 一 种 表达 式 树 的 最 优 代码 生成 算法 。 

Aho and Johnson[1976] 设 计 了 9.11 节 描述 的 动态 规划 算法 。 该 算法 被 用 作 S. C. Johnson 的 可 
移植 C 编 译 器 PCC2 的 代码 生成 器 的 基础 ， 还 被 Ripken[1977] 用 在 IBM 370 机 器 的 编译 器 中 。 
Knuth[1977] 将 该 动态 规划 算法 推广 到 了 带 有 非 对 称 寄存 器 的 机 器 如 IBM 7090 和 CDC 6600 之 
上 。 在 推广 过 程 中 ，Knuth 将 代码 生成 看 作 是 对 上 下 文 无 关 文 法 的 语法 分 析 问 题 。 

Floyd[1961] 中 给 出 了 一 个 处 理 算术 表达 式 中 公共 子 表达 式 的 算法 。 将 dag 划 分 成 树 ， 并 且 
在 树 上 使 用 gencode 等 过 程 的 思想 来 自 Waite[1976a]。Sethi[1975] 和 Bruno and Sethi[1976] 中 说 
明了 对 dag 的 最 优 代码 生成 问题 是 NP 完全 的 。Aho，Johnson, and Uliman[1977a] 中 说 明了 即使 
对 单 寄 存 器 和 无 穷 寄存 器 机 器 该 问题 仍 是 NP 完 全 的 。Aho, Hopcroft, and Ullmanf1974] 以 及 
Garey and Johnson[1979] 中 讨论 了 一 个 问题 是 NP 完 全 问题 的 重要 性 。 

Aho and Ulliman[1972a] 以 及 Downey and Sethi[1978] 中 已 经 研究 了 基本 块 的 变换 问题 。 
Mc Keeman[(1965],. Fraser[1979], Davidson and Fraser[1980, 1984a, bl] 、Lamb[1981] 和 
Giegerich[1983] 中 讨论 了 筑 孔 优化 问题 。Tanenbaum，van Staveren, and Stevenson[1982] 中 提倡 
在 中 间 代 码 中 也 使 用 罕 孔 优化 。 

Wasilew[1971]、Weingart[1973] 、Johnson[1978] 和 Cattel[1980] 中 将 代码 生成 视 为 重 写 树 的 
过 程 。9.12 节 重 写 树 的 例子 来 自 Henry[1984]。Aho and Ganapathi[1985] 中 提议 将 有 效 的 树 模式 
匹配 与 动态 规划 相 结合 。 基 于 9.12 节 的 树 翻 译 模式 ，Tjiang[1986] 中 实现 了 一 种 称 为 Twig 的 代 
码 生 成 语言 。 Kron[1975]、Huet and Levy[1979] 和 Hoffman and O'Donnellf1982] 中 描述 了 树 模 
式 匹 配 的 普通 算法 。 

”通过 利用 LR 语 法 分 析 器 进行 指令 选择 的 Graham-Glanville 代 码 生 成 方法 在 Glanville[1977]、 
Glanville and Graham[1978], Graham[1980, 1984] 、Henry[1984] 和 Aigrain et al. [1984] 中 进行 了 讨论 
和 评价 。Ganapathi[1980] 以 及 Ganapathi and Fischer[1982]1 中 使 用 属性 文法 说 明 并 实现 代码 生成 器 。 

Fraser[1977] 、Cattell[1980] 和 Leverett et al. [1980] 中 提出 了 其 他 一 些 代码 生成 器 自动 构造 
技术 。Richards[1971，1977] 中 还 讨论 了 编译 器 的 可 移植 性 。Szymanksi[1978] 以 及 Leverett and 
Szymanski[1980] 中 描述 了 用 于 链接 跨度 相关 转移 指令 的 技术 。 对 于 练习 9.19，Yannakakis 
11985] 中 有 一 个 多 项 式 时 间 的 算法 。 
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理想 情况 下 ， 编 译 器 产生 的 目标 代码 应 和 手写 的 一 样 好 。 但 现实 是 该 目标 只 能 在 有 限 的 情 
况 下 才能 达到 ， 而 且 相 当 困难 。 不 过 ， 可 以 对 简单 编译 算法 产生 的 代码 进行 改进 ， 使 其 运行 得 
更 快 一 些 ， 占 用 更 少 的 空间 ,或 者 两 者 兼顾 。 这 种 改进 是 通过 程序 变换 达到 的 ， 这 种 变换 称 为 
优化 。 昌 然 术语 “优化 ”有 些 不 当 ， 因 为 很 难保 证 结果 代码 是 最 好 的 。 应 用 代码 改进 变换 的 编 
译 器 叫做 优化 编译 器 。 

本 章 强调 的 是 与 机 器 无 关 的 代码 优化 ， 即 改进 目标 代码 而 不 考虑 基于 目标 机 器 任何 特性 的 
程序 变换 。 依 赖 于 机 器 的 优化 ， 例 如 寄存 器 分 配 和 特殊 机 器 指令 序列 的 利用 ， 已 在 第 9 章 中 讨 
论 过 了 。 

如 果 我 们 能 识别 出 程序 中 经 常 执行 的 部 分 ， 并 使 得 这 些 部 分 尽 可 能 地 达到 高 效率 ， 那 么 便 
能 以 最 小 的 代价 获得 最 大 的 收益 。 流 行 的 说 法 是 大 部 分 程序 将 90% 的 执行 时 间 消 耗 在 10% 的 代 
码 上 。 虽 和 然 实际 比例 可 能 有 变化 ， 但 通常 程序 运行 的 大 部 分 时 间 都 消耗 在 一 小 部 分 程序 上 。 根 
据 有 代表 性 的 输入 数据 精确 地 勾画 出 程序 运行 时 的 轮廓 ， 可 以 识别 出 程序 中 频繁 执行 的 区 域 。 
不 幸 的 是 ， 编 译 器 不 能 受益 于 这 样 的 典型 输入 数据 ， 所 以 它 必 须 尽 一 切 努力 猜测 出 哪里 是 程序 
的 热点 。 

实际 上 ， 程 序 的 内 层 循环 是 重点 要 改进 的 地 方 。 在 强调 像 while 和 for 语 句 这样 的 控制 结构 语言 
中 ， 循 环 是 显 式 的 出 现在 程序 的 语法 中 的 。 通 常 ， 程 序 流程 图 中 的 循环 由 控制 流 分 析 过 程 识 别 。 

本 章 提供 了 许多 有 用 的 优化 变换 和 实现 它们 的 技术 。 确 定编 译 器 使 用 什么 变换 的 最 好 技术 
是 收集 关于 源 程序 的 统计 信息 , 并 在 真正 的 源 程序 的 典型 例子 上 评价 一 组 给 定 优化 算法 的 受益 。 
第 12 章 描述 的 变换 已 经 证 明 在 好 几 种 语言 的 优化 编译 器 中 都 非常 有 用 。 

本 章 讨论 的 重点 之 一 是 数据 流 分 析 ， 它 是 收集 程序 中 变量 使 用 方式 信息 的 过 程 。 在 程序 的 
不 同 点 收集 的 这 种 信息 可 以 用 简单 的 集合 方程 式 联系 起 来 。 我 们 将 提出 用 数据 流 分 析 收 集 信息 
和 和 在 优化 中 有 效 地 使 用 这 些 信息 的 一 些 算法 。 我 们 还 要 考虑 像 过 程 和 指针 这 样 的 语言 结构 对 优 
化 所 产生 的 影响 。 

本 章 的 最 后 四 节 处 理 更 高 级 的 细节 。 包 括 一 些 与 控制 流 相关 的 图 论 的 思想 ， 并 将 这 些 思想 应 
用 到 数据 流 分 析 中 。 本 章 最 后 将 讨论 用 于 数据 流 分 析 的 通用 工具 和 用 于 调试 优化 代码 的 技术 。 总 
之 ,贯穿 本 章 的 重点 是 应 用 在 语言 上 的 优化 技术 。 第 12 章 中 将 介绍 使 用 这 些 思想 的 一 些 编译 器 。 
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要 建立 高 效 的 目标 语言 程序 ， 程 序 员 所 需要 的 不 仅仅 是 一 个 优化 编译 器 。 本 节 中 ， 我 们 将 
考察 为 建立 高 效 的 目标 程序 ， 程 序 员 和 编译 器 可 做 的 选择 。 我 们 会 提 到 程序 员 和 编译 器 的 编写 
者 可 能 期 望 用 于 改进 程序 性 能 的 改进 代码 的 变换 种 类 ， 还 要 考虑 可 用 于 变换 的 程序 表示 。 
10.1.1 代码 改进 变换 的 准则 

简 而 言 之 ， 最 好 的 程序 变换 是 代价 最 小 、 收 益 最 大 的 变换 。 由 优化 编译 器 提供 的 变换 应 该 
有 共有 下 列 几 种 性 质 。 

首先 ， 代 码 变换 必须 保持 程序 的 含义 。 也 就 是 说 ， 对 于 给 定 的 输入 ,“ 优 化 ”不 能 改变 程 
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序 产 生 的 输出 ， 也 不 能 引起 在 源 程序 的 原版 本 中 不 会 出 现 的 错误 ， 如 除数 为 零 等 。 我 们 会 始终 
采取 比较 安全 稳 受 的 方案 ， 即 宁可 失去 某 些 优化 的 机 会 也 不 冒 改变 程序 行为 的 风险 。 

其 次 ， 按 平均 数 计算 ， 变 换 必 须 将 程序 的 速度 加 快 一 个 可 测量 的 值 。 虽 然 代码 的 规模 不 像 
以 往 那 么 重要 ， 但 有 时 我 们 还 是 对 减少 目标 代码 所 需 空间 感 兴趣 。 当 然 ， 并 不 是 每 种 变换 都 能 
成 功 地 改进 每 一 个 程序 ， 而 且 有 时 优化 甚至 可 能 稍稍 降低 某 个 程序 的 运行 速度 ， 但 只 要 按 平均 
数 米 说 能 够 有 所 改进 即 可 。 

第 三 ,一 种 变换 必须 值得 我 们 付出 努力 。 编 译 器 的 编写 者 为 实现 一 种 改进 代码 的 变换 所 秦 
费 的 时 间 和 和 精力， 以 及 编译 器 编译 源 程序 时 的 额外 开销 ， 如 果 不 能 从 目标 程序 的 运行 中 得 到 补 
偿 ， 那 么 这 种 改进 变换 是 没有 意义 的 。 某 些 局 部 变换 或 者 9.9 节 讨论 的 突 孔 优化 都 是 简单 有 益 
的 ， 任 何 编译 器 都 应 包含 它们 。 

有 些 变换 ， 只 有 在 对 源 程 序 进行 详尽 的 、 往 往 是 费时 的 分 析 后 才能 使 用 ， 因 此 很 少 把 它们 
用 于 只 运行 儿 次 的 程序 。 例 如 ， 快 速 的 、 非 优化 的 编译 器 可 能 对 调试 或 者 对 运行 几 次 就 要 扔 掉 
的 “学 生 作 业 ” 更 有 帮助 。 只 有 当 程 序 的 执行 要 占用 相当 可 观 的 机 器 时 间 时 ， 为 改进 代码 质量 
而 消耗 在 运行 优化 编译 器 上 的 时 间 才 是 值得 的 。 
10.1.2 性 能 的 提高 

程序 运行 时 间 的 显著 改进 ， 例 如 从 几 个 小 时 减少 到 几 秒 钟 ， 通 常 要 在 所 有 级 别 上 都 进行 改 
进 才能 达到 ， 如 图 10-1 所 示 ， 即 从 源 程序 级 一 直到 目标 代码 级 都 要 进行 改进 。 在 每 一 级 中 ， 可 
提供 的 选择 都 落 在 两 个 极端 内 ， 即 寻找 更 好 的 算法 和 用 更 少 的 指令 实现 给 定 的 算法 之 间 。 


源 代码 二 wa [ 中 间 代 码 per 目标 代码 
1 i] I 





' I 
用 户 可 以 : 编译 器 可 以 : Se VERS AT LA 
描述 程序 、 改善 循环 、 使 用 寄存 器 、 
改变 算法 、 过 程 调用 、 选择 指令 、 
变换 循环 地 址 计算 TAIT EFL EHR 


图 10-1 用 户 和 编译 器 可 以 改进 代码 的 潜在 位 置 


算法 的 变换 对 程序 的 运行 时 间 有 时 会 产生 惊人 的 改进 。 例 如 ，Bentley[1982] 中 叙述 了 当 用 快 
速 分 类 代替 插入 分 类 时 ， 对 N 个 元 素 进 行 分 类 的 程序 的 运行 时 间 从 2.02Mzhs 降 到 12Mog:N uso © 
当 N = 100 时 ， 快 速 分 类 使 程序 的 运行 速度 提高 2.5 倍 。 当 N = 100 000 时 ， 这 种 改进 更 显著 ， 速 
度 提 高 了 1000 多 倍 。 

不 幸 的 是 ， 没 有 一 个 编译 器 能 为 给 定 程 序 找到 最 好 的 算法 。 不 过 ， 有 时 编译 器 能 够 用 代数 
上 等 价 的 操作 序列 来 替换 一 个 操作 序列 ， 使 得 程序 的 运行 时 间 有 可 观 的 缩短 。 当 代数 变换 用 于 
高 级 语言 程序 ， 例 如 数据 库 的 查询 语言 ( 见 Ullman[1982] ) 时 ， 这 样 的 节省 更 是 常见 。 

本 节 和 下 一 节 中 ， 我 们 将 用 一 个 快速 分 类 程序 quicksort 来 说 明 各 种 代码 改进 变换 的 作 
用 。 图 10-2 的 C 语言 程序 来 自 Sedgewick[1978]， 该 文 讨 论 了 对 于 这 种 程序 的 手工 优化 。 在 此 
我 们 不 讨论 该 程序 的 算法 。 事 实 上 ， 为 了 使 这 个 程序 能 正常 工作 ，a [0] 和 afmax] 应 分 别 是 
被 分 类 的 最 小 元 素 和 最 大 元 素 。 

有 些 代码 改进 变换 要 想 在 源 语言 级 完成 是 不 大 可 能 的 。 例 如 ， 在 Pascal 和 Fortran 这 样 的 
语言 中 ,程序 员 只 能 按 常 规 的 方式 引用 数组 元 素 ， 如 b[i, j] 。 然 而 ， 到 了 中 间 代 码 一 级 ， 代 


昌 ” 关 十 这 些 分 类 算法 和 其 速度 的 讨论 请 参阅 Aho, Hopcroft, and Ullman [1983]。 
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码 改进 的 机 会 就 会 出 现 。 例 如 ， 三 地 址 码 提 供 了 许多 改进 地 址 计算 的 机 会 ， 尤 其 是 在 循环 中 。 
假定 每 个 数组 元 素 占 4 个 字 节 ， 考 虑 决定 a[i1 值 的 三 地 址 码 : 


tı := 4#i; t := a[t!] 


这 样 的 中 间 代 码 将 对 ali 的 每 次 出 现 重新 计算 4*i。 因 为 它们 是 隐 含 在 语言 的 中 间 代 码 里 ， 
而 不 是 显 式 地 出 现在 用 户 所 写 的 代码 中 ， 因 此 程序 员 无 法 控制 这 种 元 余 的 地 址 计算 。 在 这 种 情 
况 下 ， 编 译 器 应 该 删除 它们 。 然 而 ， 在 像 C 这 样 的 语言 中 ， 这 种 变换 可 以 由 程序 员 在 源 程序 级 
完成 ， 因 为 访问 数组 元 素 可 以 使 用 指针 系统 地 重 写 ， 以 提高 它们 的 效率 。 这 种 重 写 类 似 于 
Fortran 的 优化 器 传统 上 所 应 用 的 变换 。 


void quicksort(m,n) 
int m,n; 
{ 
int i,j; 
int v,x; 
if ( n <= m ) return; 
/* 程序 段 由 此 开始 */ 
i = m-1; j = n; v = aln]; 
while(1) { 


do i = i+1; while ( ali] < v ); 


do j j-1; while ( ar[j] > v ); 
if (i >= j ) break; 
x = ali}; afi] = a[j]; ali) 

} . 

x = ali]; ali) = afn]; aln] 

/* 程序 自在 此 结束 */ 


quicksort(m,j); quicksort(i+1,n); 





图 10-2 快速 分 类 的 C 代 码 


在 目标 机 器 级 ， 机 器 资源 的 合理 有 效 使 用 则 是 编译 器 的 责任 。 例 如 ， 把 最 频繁 使 用 的 变量 
保存 在 害 存 器 中 ， 常 常 可 使 运行 时 间 减 少 一 半 。 还 是 C 语 言 ， 它 允许 程序 员 要 求 编译 器 把 某 些 
变量 保持 在 寄存 器 中 ， 但 是 大 多 数 语 言 却 不 允许 。 类 似 地 ， 编 译 器 可 以 利用 机 器 的 寻 址 方式 ， 
选择 一 条 指令 来 完成 通常 需要 两 条 或 三 条 指令 完成 的 动作 ， 正 如 第 9 章 所 讨论 的 那样 。 

即使 程序 员 有 可 能 改进 代码 ， 但 让 编译 器 来 完成 某 些 改进 可 能 更 方便 些 。 如 果 可 以 依赖 编 
译 器 产生 高 效率 的 代码 ， 那 么 用 户 可 以 将 精力 集中 在 书写 清晰 的 程序 上 。 

10.1.3 优化 编译 器 的 组 织 

正如 我 们 已 经 提 到 的 ， 我 们 常常 可 以 在 几 个 级 别 上 改进 程序 。 因 为 分 析 和 变换 程序 所 需要 
的 技术 不 会 随 程序 级 别 的 不 同 而 有 较 大 变化 ， 所 以 本 章 使 用 图 10-3 中 所 示 的 组 织 ， 主 要 集中 在 
对 中 间 代 码 的 变换 上 。 代 码 改进 阶段 由 控制 流 分 析 、 数 据 流 分 析 和 变换 三 部 分 组 成 。 第 9 章 中 
讨论 的 代码 生成 器 从 变换 后 的 中 间 代 码 生 成 目标 程序 。 

为 方便 表示 ， 我 们 假定 中 间 代 码 由 三 地 址 语句 组 成 。 用 第 8 章 的 技术 为 图 10-2 的 部 分 程序 
产生 的 中 间 代 码 如 图 10-4 所 示 。 若 使 用 其 他 的 中 间 表 示 ， 则 图 10-4 中 的 临时 变量 tl，tz，…， 
ti 不 必 显 式 出 现 ， 如 第 8 章 所 述 。 

图 10-3 中 的 组 织 有 下 列 优点 : 

1. 实现 高 级 结构 所 需 的 操作 在 中 间 代 码 中 是 显 式 的 ， 这 就 有 可 能 优化 它们 。 例 如 ，a [i] 
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的 地 址 计算 在 图 10-4 中 是 显 式 进行 的 ， 这 样 ， 像 表达 式 4*i 这 样 的 重复 计算 就 可 以 被 删除 〈 如 
下 一 节 将 要 讨论 的 那样 )。 

2. 中 间 代 码 可 以 〈 相对 地 ) 独立 于 目标 机 器 ， 所 以 ， 由 一 种 机 器 的 代码 生成 器 改 为 另 一 种 
机 器 的 代码 生成 器 时 ， 优 化 器 不 必 做 太 多 修改 。 图 10-4 的 中 间 代 码 认为 数组 的 每 个 元 素 占 4 个 
字 节 ， 某 些 中 间 代 码 ， 如 Pascal 的 P 代 码 ， 把 这 件 事 情 留 给 代码 生成 器 ， 由 它 填 人 数组 元 素 的 
大 小 ， 因 此 中 间 代 码 独立 于 机 器 字 的 大 小 。 如 用 符号 常量 代替 4， 得 到 的 中 间 代 码 也 能 完成 同 
样 的 事情 。 


altı] 

i+1 

4xi 

a[t;] 

< v goto (5) 

j-1 

axj 

7= a(t,] 

ts > v goto (9) 

i >= j goto (23) altz] : 

4xi tis 
altis] : 
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图 10-4 图 10-2 中 程序 段 的 三 地 址 码 


正如 9.4 节 所 讨论 的 那样 ， 在 代码 优化 器 中 ， 程 序 用 流 图 表示 ， 其 中 ,， 边 表示 控制 流 ， 节 
点 表示 基本 块 。 除 非 有 其 他 说 明 ， 和 否则 这 里 所 说 的 程序 都 意味 着 单个 过 程 。 我 们 会 在 10.8 节 讨 
论 过 程 间 的 优化 。 

例 10.1 图 10-5 是 图 10-4 中 程序 的 流 图 。B) 是 初始 节点 。 图 10-4 中 语句 之 加 的 所 有 条 件 转 
移 和 无 条 件 转移 在 图 10-5$ 中 都 改 成 了 基本 块 之 间 的 转移 ， 原 来 所 转向 的 语句 则 是 基本 块 的 入口 
语句 。 . 

图 10-$ 中 有 3 个 循环 ，B， 和 Bs 都 单独 构成 循环 ; 以 B AAO, IÈ B, Bs, BAAB: — EH 
成 一 个 循环 。 口 


10.2 优化 的 主要 种 类 


本 节 中 , 我 们 将 介绍 一 些 最 有 用 的 代码 改进 变换 , 实现 这 些 变 换 的 技术 将 在 以 下 各 节 给 出 。 
只 考查 一 个 基本 块 中 的 语句 就 可 以 完成 的 变换 呀 做 局 部 变换 ， 否 则 叫做 全 局 交换 。 许 多 变换 既 
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可 以 在 局 部 级 也 可 以 在 全 局 级 完成 。 通 常 首先 执行 局 部 变换 。 





图 10-5 流 图 
10.2.1 保持 功能 变换 
有 许多 种 方法 可 以 使 编译 器 改进 一 个 程序 而 不 改变 其 功能 。 例 如 ， 公 共 子 表达 式 和 删除、 复制 
传播 、 无 用 代码 删除 和 常量 合并 等 等 。 在 9.8 节 中 我 们 已 经 介绍 了 在 构建 基本 块 的 dag 表 示 时 ， 是 
如 何 删除 局 部 公共 子 表达 式 的 。 其 他 变换 主要 在 进行 全 局 优化 时 才 执行 ， 下 面 我 们 将 逐一 介绍 。 
一 个 程序 经 常 包含 对 辣 一 个 值 的 多 次 计算 ， 例 如 求 一 个 数组 地 址 的 偏 移 量 。 正 如 在 10.1 节 


中 提 到 的 ， 程 序 员 不 能 完全 避免 这 些 重复 的 计算 ， 因 为 这 些 计算 隐藏 在 源 语言 的 细节 层 。 比 如 ， 
图 10-6a 中 的 块 B; 重新 计算 了 4*i 和 4*j。 





b) 


图 10-6 局 部 公共 子 表达 式 删 除 
a) 删除 前 b) 删除 后 
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10.2.2 公共 子 表达 式 

如 果 表 达 式 E 先 前 已 被 计算 过 ， 并 且 从 先前 的 计算 到 现在 ，E 中 变量 的 值 没有 改变 ， 那 么 E 
的 这 次 出 现 就 称 为 公共 子 表达 式 。 如 果 我 们 能 够 利用 先前 的 计算 结果 ， 就 可 以 避免 表达 式 的 重 
复 计算 。 例 如 ， 在 图 10-6a 中 ， 对 t: 和 tw 的 赋值 语句 分 别 有 公共 子 表达 式 4*i 和 4*j 在 它 
们 的 右 部 。 在 图 10-6b 中 , 用 te tR tr, H ts 代替 two 就 已 删除 了 这 些 公 共 子 表达 式 。 


例 10.2 ”图 10-7 给 出 了 从 图 10-5 的 流 图 的 Bs 和 B。 块 中 删除 全 局 和 局 部 公共 子 表达 式 后 的 
结果 。 我 们 首先 讨论 Bs 的 变换 ， 然 后 解释 涉及 数组 的 一 些微 妙 的 地 方 。 









三 4*j 
:= alt,] 
ts > v goto B, 


图 10-7 删除 公共 子 表 达 式 后 的 B; 和 B。 


如 图 10-6b 所 示 ， 删 除了 局 部 公共 子 表达 式 后 ，B; 仍然 计算 4*i 和 4*j。 它 们 都 是 公共 子 
表达 式 。 特 别 是 ， 如 果 使 用 Bs 中 计算 的 tt， 则 Bs 中 的 3 个 语句 

ts := A*j; ty := aftg]; alts] := x 
可 以 用 下 列 语句 代替 : 

to := altą]; alts] := x 
在 图 10-7 中 可 以 看 到 ， 当 控制 从 Bs 中 对 4*j 的 计算 传 到 B 时 ， 中 间 没 有 改变 j， 所 以 需要 
4*j 时 可 以 引用 tao 

ta 代替 ts 后 ，Bs 的 另 一 个 公共 子 表达 式 就 变 得 清楚 了 。 新 的 表达 式 a[ ts] 对 应 于 源 代码 
中 a[j] 的 值 。 当 控制 离开 B 进入 Bs 时 不 仅 j 的 值 没有 变 ， 而 且 a[j ] 的 值 也 没有 变 (a[j] 的 
值 计算 后 存在 临时 变量 t; 中 )， 因 为 在 这 期 间 没 有 对 a 的 元 素 进行 赋值 ， 从 而 Bs 中 的 语句 

to := art4]; alte] := to 
可 以 由 语句 


alte] := ts 
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代替 。 

类 似 地 ， 图 10-6b 的 Bs PRS x 的 值 和 B PIRG ts 的 值 是 一 样 的 。 图 10-7 中 的 Bs 是 从 图 
10-6b 的 Bs 中 删 掉 了 与 源 代 码 表达 式 alilM arjl] 的 值 相对 应 的 公共 子 表达 式 后 的 结果 。 图 
10-7 中 的 Be 也 完成 了 一 系列 类 似 的 变换 。 

图 10-7 中 的 B 和 Be 中 的 表达 式 a[ti] 不 能 被 看 作为 公共 子 表达 式 ， 虽 然 在 这 两 个 地 方 都 使 
用 了 ti。 因 为 控制 离开 B 进 入 Be 之 前 , 它 可 以 通过 Bs, 而 Bs 有 对 a 的 赋值 ， 因 此 在 到 达 Bs 时 ， 
alti] 的 值 可 能 和 离开 成 时 的 值 不 一 样 ， 所 以 把 a [ti 作为 公共 子 表达 式 是 不 安全 的 。 口 
10.2.3 复制 传播 

图 10-7 中 的 块 Bs 可 以 通过 使 用 两 种 新 的 变换 删除 x 而 得 到 进一步 的 改进 。 一 种 和 形 如 
f := g 的 赋值 语句 有 关 ， 这 种 赋值 语句 叫做 复制 语句 ， 或 简称 为 复制 。 如 果 我 们 在 例 10.2 中 进 
行 了 更 深入 的 讨论 的 话 ， 复 制 概念 会 更 早 一 些 提出 ， 因 为 删除 公共 子 表达 式 的 算法 已 经 引入 了 
复制 。 当 然 ， 其 他 的 一 些 算法 中 也 引入 复制 。 例 如 ， 当 删除 图 10-8 中 的 公共 子 表达 式 c := d+e 
时 ， 该 算法 使 用 新 的 变量 t 来 保存 d+ e 的 值 。 因 为 控制 要 么 在 对 a 的 赋值 之 后 ， 要 么 在 对 b 的 
赋值 之 后 到 达 c := d+e， 所 以 用 c := a 或 c :=b 来 代替 c := da+e 是 不 正确 的 。 





图 10-8 删除 公共 子 表 达 式 期 间 引进 的 复制 


复制 传播 变换 的 思想 是 ， 在 复制 语句 上 := g 之 后 尽 可 能 用 g 代替 f。 例 如 ， 图 10-7 的 块 Bs 
中 的 赋值 语句 x := ti 是 个 复制 。 复 制 传播 应 用 于 Bs 将 产生 如 下 代码 : 


= ts 10-1 
ar[t4] := t; (10-1) 


看 起 来 这 似乎 没有 改进 ， 但 我 们 将 会 看 到 ， 它 增加 了 删除 对 x 的 赋值 的 机 会 。 
10.2.4 无 用 代码 删除 

如 果 变 量 的 值 以 后 还 要 被 引用 , 则 称 它 在 程序 的 该 点 是 活跃 的 ,否则 称 它 在 该 点 是 无 用 的 。 
其 相关 概念 是 无 用 代码 ， 即 它 所 计算 的 值 决 不 会 被 引用 的 语句 。 虽 然 程 序 员 不 会 故意 引入 无 用 
代码 ， 但 前 面 的 变换 却 可 能 引入 无 用 代码 。 例 如 ， 在 9.9 节 ， 我 们 讨论 了 debug 的 使 用 ， 在 程 
序 的 不 同 地 方 可 以 将 其 置 为 真 或 假 ， 而 且 将 其 用 在 类 似 于 下 面 的 语句 中 : 


if (debug) print ... (10-2) 
从 数据 流 分 析 有 可 能 推断 出 : 程序 每 次 到 达 这 个 语句 时 aebug 的 值 总 是 假 。 通 常 这 是 因为 有 一 
个 特定 的 语句 : 


debug := false 


而 且 我 们 可 以 断定 ， 不 论 程 序 实际 上 取 什 么 分 支 序列 ， 对 debug 的 最 后 一 次 赋值 总 是 先 于 测试 
语句 式 (10-2)。 如 果 复 制 传播 用 假 代 替 aebug， 那 么 该 打印 语句 是 无 用 代码 ， 因 为 它 是 不 可 到 
达 的 ， 于 是 可 以 从 目标 代码 中 删 掉 测 试 和 打印 。 更 一 般 地 ， 在 编译 时 推断 出 一 个 表达 式 的 值 是 
常量 ， 并 且 用 该 常量 代替 它 ， 这 种 变换 叫做 常量 合并 。 
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复制 传播 的 优点 之 一 是 它 常 常 将 复制 语句 变 成 无 用 代码 。 例 如 ， 通 过 复制 传播 后 再 删除 无 
用 代码 ， 删 除了 (10-1) 中 对 x 的 赋值 ， 并 把 它 变 成 为 : 
alti] := ts 
alt] ;= t3 
594 goto B, 
l 
595| ”这 段 代码 是 图 10-7 中 块 B; 的 进一步 改进 。 
10.2.5 循环 优化 
现在 我 们 简要 介绍 一 个 非常 重要 的 可 优化 的 地 方 ， 即 循环 ， 尤 其 是 程序 要 消耗 大 部 分 时 间 
的 内 循环 。 如 果 我 们 减少 内 循环 的 指令 数 ， 即 使 增加 了 该 循环 外 的 指令 数 ， 程 序 的 运行 时 间 也 
可 减少 。 循 环 优化 的 3 种 重要 技术 是 : 
1. 代码 外 提 。 它 把 代码 移出 循环 。 
2. 归纳 变量 删除 。 用 它 我 们 可 以 从 图 10-7 的 内 循环 B 和 Bs PANE i 和 j。 
3. 强度 齐 弱 。 它 用 较 快 的 操作 代替 较 慢 的 操作 ， 如 用 加 代替 乘 。 
10.2.6 代码 外 提 
减少 循环 中 代码 总 数 的 一 个 重要 办 法 是 代码 外 提 。 这 种 变换 把 循环 不 变 计 算 ， 即 所 产生 的 
结果 独立 于 循环 执行 次 数 的 表达 式 ， 放 到 循环 的 前 面 。 注 意 ， 这 里 假定 循环 存在 一 个 人 口 。 
例如 ， 下 面 的 while 语句 中 ，1imit-2 是 循环 不 变 计算 : 
while ( i <= limit-2 ) /* 循环 体 中 的 语句 不 改变 1irmit 的 值 */ 
代码 外 提 将 产生 以 下 等 价 的 语句 : 
t = limit-2; 
while ( i <= t ) /* 循环 体 中 的 语句 不 改变 limit 或 t */ 
10.2.7 “归纳 变量 和 强度 削弱 
虽然 代码 外 提 不 能 用 于 快速 分 类 的 例子 ， 但 另外 的 两 种 循环 优化 方法 却 可 以 。 例 如 ， 考 虑 
围绕 块 B; 的 循环 ， 图 10-9 只 给 出 了 和 B; 的 变换 有 关 的 部 分 流 图 。 


















ts > v goto By 


B, B 
if ys goto B; 
Bs B 





a) b) 
图 10-9 将 强度 削弱 应 用 到 块 Bs 中 的 4*j 
a) 变换 前 b) 变换 后 
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注意 j 和 ts 的 值 总 是 同步 变化 ， 每 次 j 的 值 减 1，t HERRA, AARET ta, R 
们 将 这 样 的 变量 称 为 归纳 变量 。 

如 果 在 循环 中 有 两 个 或 更 多 的 归纳 变量 ， 也 许可 以 只 保留 一 个 ， 而 去 掉 其 余 的 ， 这 将 由 归 
纳 变量 删除 过 程 来 完成 。 对 于 图 10-9a 中 国 绕 块 B 的 内 循环 ， 我 们 不 能 去 掉 ] 或 t4; 因为 t4 在 Bs 
中 被 引用 ， 而 j 在 B 中 被 引用 。 然 而 可 以 用 它们 来 说 明 强 度 前 弱 和 归纳 变量 删除 的 部 分 过 程 ， 
最 后 ， 当 考虑 外 循环 B ~ 8B; 时 ，j 将 被 删除 。 


例 10.3 ”在 图 10-9a 中 ， 对 内 循环 B8， 若 不 考虑 第 一 次 进入 ， 关 系 ts = 4*j 在 B; 的 入 口 一 
ERZ, 在 j := j-1 之 后 ， 关系 ts = 4*j-4 也 将 成 立 。 因 此 ta := 4*j 可 以 用 t4 := ts-4 来 代 
蔡 。 现 在 妨碍 进行 该 变换 的 惟一 问题 是 第 一 次 进入 B 时 ts 没有 初 值 。 因 为 我 们 必须 在 块 B, 
的 人 口 维持 关系 t4 = 4x*j ， 所 以 就 在 j 本 身 被 置 初 值 的 那 一 个 块 的 末尾 给 ts 置 一 个 恰当 的 初 值 
4*j。 在 图 10-9b 中 ,该 语句 放 在 块 B 的 最 后 ， 并 用 虚线 表示 。 

如 果 乘 运算 需要 的 时 间 远 大 于 加 或 减 运算 的 话 〈 许 多 机 器 都 是 这 样 )， 那 么 这 种 以 加 减 运 
算 代 替 乘 运算 的 变换 就 会 加 快 目标 代码 的 速度 。 口 


10.7 节 将 讨论 怎样 寻找 归纳 变量 以 及 可 以 施加 什么 变换 。 下 面 我 们 再 举 一 个 归纳 变量 删除 
的 例子 作为 本 节 的 结束 ， 该 例 处 理 外 循环 Bo, Bs, Ba 和 B 的 上 下 文中 的 i AG. 


例 10.4 ”把 强度 削弱 应 用 于 围绕 B 和 Bs 的 内 循环 之 后 ，i 和 3j 的 作用 仅 在 于 决定 B 中 测 
试 语句 的 结果 。 我 们 已 知道 i 和 t: 满足 关系 tz = 4*i ，j 和 ts 也 满足 关系 ts= 4*j ， 那 么 测试 
ta > =t 就 等 价 于 i > =j。 一 旦 作出 这 种 替换 ， 块 B 中 的 i ARB 中 的 j 就 成 了 无 用 变量 ， 
在 这 些 块 中 对 它们 的 赋值 也 就 成 了 可 以 删除 的 无 用 代码 ， 结 果 流 图 如 图 10-10 所 示 。 口 


七 14 :二 altı] 
altı] := ty 


goto B- altı] := ty 





图 10-10 归纳 变量 删除 后 的 流 图 


这 种 代码 改进 变换 是 有 效 的 。 在 图 10-10 中 ， 块 B AUR Bs 的 指令 数 都 从 图 10-5 最 初 流 图 中 
的 4 条 减 为 3 条 。B; 从 9 条 减 到 3 条 ，B。 从 8 条 减 成 3 条 。 虽 然 Bl 从 4 条 增加 到 6 条 ， 但 是 块 B 在 


596 
l 
597 
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这 段 程序 中 仅 执行 一 次 ， 所 以 总 的 运行 时 间 几 乎 不 受 块 B 大 小 的 影响 。 
10.3 基本 块 的 优化 


在 第 9 章 中 ， 我 们 已 经 看 到 许多 对 基本 块 的 代码 改进 变换 ， 包 括 诸如 公共 子 表 达 式 删除 和 
无 用 代码 删除 的 保 结 构 变换 ， 以 及 像 强度 削弱 那样 的 代数 变换 。 

许多 保 结构 变换 可 以 通过 为 基本 块 构建 dag 来 实现 。 每 一 个 出 现在 基本 块 中 的 变量 其 初始 
值 在 dag 中 都 有 一 个 节点 ， 而 且 块 中 每 一 条 语句 s 都 有 一 个 节点 n 与 之 相关 联 。n 的 子 节点 是 
那些 在 s 之 前 、 最 后 一 次 对 s 中 用 到 的 操作 数 进行 定义 的 语句 所 对 应 的 节点 。 节 点 n 由 s 中 用 
到 的 运算 符 来 标记 ， 而 且 将 块 中 最 后 一 次 定义 的 变量 列表 附加 到 节点 n。 如 果 有 的 话 ， 我 们 还 
要 记 下 那些 其 值 在 块 的 出 口 是 活路 的 节点 ， 它 们 是 输出 节点 。 

当 有 一 个 新 节点 m 将 要 加 入 时 ， 如 果 存 在 节点 n, HEA n 和 m 有 同样 顺序 、 同 样 运算 符 
以 及 同样 的 子 节点 ， 则 可 以 知道 有 公共 子 表达 式 被 检测 到 了 。 如 果 这 样 的 话 ，n 和 m 计算 相同 
的 值 ， 而 且 可 以 用 在 m 的 位 置 上 。 


例 10.5 基本 块 (10-3) 的 dag 如 图 10-11 所 示 。 


aa oo 
条 H 其 站 
vom ot 
1 中 ft + 
aaan 


(10-3) 


当 我 们 为 第 3 条 语句 c := b + c 构 造 节点 时 ， 我 们 知道 在 b + c 中 对 b 的 引用 指向 图 10-11 
中 标 以 -的 节点 ， 因 为 那 是 对 b 最 近 的 定义 。 这 样 ， 我 们 就 不 会 混淆 语句 1 和 3 所 计算 的 值 。 

但 是 , 与 第 4 条 语句 d := a-d 对 应 的 节点 具 
有 运算 符 -， 以 及 标号 为 a 和 ao 的 子 节点 。 因 为 
运算 符 和 子 节点 与 语句 2 所 对 应 节点 的 运算 符 和 
子 节点 相同 ， 所 以 我 们 没有 创建 这 个 节点 ， 而 是 
将 q 添 加 到 标号 为 -的 节点 的 定义 列表 中 。 口 


由 于 图 10-11 中 的 dag 中 只 有 三 个 节点 ， 基 
本 块 (10-3) 可 以 被 只 有 三 条 语句 的 块 取代 。 事 实 Foii 基本 块 (10-3) 的 dag 

E, MẸ b (或 8) 在 基本 块 的 出 口 处 不 是 活跃 的 ， 我 们 就 不 需要 计算 b ( 或 4)， 而 可 以 利用 a 
(或 b ) 来 接收 由 图 10-11 中 标 以 -的 节点 所 表示 的 值 。 璧 如， 如 果 b 在 出 口 处 不 是 活 唉 的 ， 我 们 
就 可 以 使 用 如 下 基本 块 来 代替 块 (10.3)。 





a :xs b+c 
d = a-d 
c := d+c 


但 是 ， 恕 果 b 和 a 在 出 口 处 都 是 活跃 的 ， 则 必须 使 用 第 4 条 语句 来 将 一 个 节点 的 值 复制 到 另 一 


Po © 
注意 ， 当 我 们 寻找 公共 子 表达 式 时 ， 我 们 其 实 是 在 寻找 保证 是 计算 相同 值 的 表达 式 ， 而 不 
O “一般 地 ， 当 从 dag 重 构 代码 时 我 们 必须 小 心 选择 与 节点 对 应 的 变量 名 。 如 果 变 量 x 被 定义 了 两 次 ， 或 者 如 果 


它 被 赋值 一 次 而 其 初 值 xo 还 被 引用 了 ， 那 么 我 们 必须 保证 不 改变 x 的 值 ， 除 非 我 们 已 经 使 用 了 所 有 那些 以 
前 保存 过 x 值 的 节点 。 
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管 这 个 值 是 怎样 计算 出 来 的 。 因 此 ，dag 方 法 将 丢失 这 样 的 事实 : 在 序列 (10-4) 中 由 第 1 条 和 第 4 
条 语句 计算 的 表达 式 是 相同 的 ， 即 b+c。 


(10-4) 


oa DC 
agaa 


+ 
+ 
+ 


可 是 ， 如 同 接 下 来 要 讨论 的 ， 应 用 于 dag 的 代数 
恒等式 可 以 揭示 这 种 等 价 关系 。 该 序列 的 dag 如 
图 10-12 所 示 。 

在 dag 上 非常 容易 实现 与 无 用 代码 删除 相对 
应 的 操作 。 我 们 从 dag 中 删除 任何 没有 活跃 变量 





的 根 节点 (没有 祖先 的 节点 )。 重 复 应 用 该 变换 bo co d 
会 从 dag 中 删除 所 有 和 无 用 代码 相对 应 的 节点 。 图 10-12 基本 块 (10-4) 的 dag 
代数 恒等式 的 应 用 
代数 恒等式 代表 基本 块 上 另 一 类 重要 的 优化 。 在 9.9 节 中 ， 我 们 介绍 了 一 些 可 以 在 优化 中 
应 用 的 简单 代数 变换 ， 例 如 ， 我 们 可 以 应 用 像 下 面 这 样 的 算术 恒等式 : 
x+O020+x= x 
x-0=x 
Xs 1= 1* x = Xx 
x/ 1= x 


另外 一 类 代数 优化 包括 强度 削弱 ， 即 用 较 快 的 运算 符 取 代 较 慢 的 运算 符 ， 例 如 : 


x *# 25 XK * X 
2.0 *x =x +x 
x/22x * 0.5 


第 三 类 相关 的 优化 技术 是 常量 合并 。 这 里 我 们 在 编译 时 对 常量 表达 式 进 行 计 算 ， 并 利用 它 
们 的 值 取代 常量 表达 式 S。 因 而 ， 表 达 式 2*3 .14 将 被 6.28 取 代 。 许 多 常量 表达 式 是 通过 使 用 
符号 常量 出 现 的 。 

dag 构 造 过 程 可 以 帮助 我 们 应 用 上 述 变换 和 更 多 其 他 的 通用 代数 变换 ， 比 如 交换 律 和 结合 
律 。 例 如 ，* 是 满足 交换 律 的 ， 即 x*y=y*x。 在 我 们 创建 一 个 标号 为 *， 左 儿子 为 m， 右 儿子 
H n 的 新 节点 之 前 ,我们 要 检查 这 样 的 节点 是 否 已 经 存在 了 ， 然 后 我 们 还 要 检查 是 否 存 在 具有 
操作 符 *、 左 儿子 n 及 右 儿 子 m 的 节点 。 

RREAN <=, >=, <, >, =- 和 关 有 时 会 生成 意外 的 公共 子 表达 式 。 例 如 ， 条 件 x>y 也 
可 以 通过 减 操作 并 在 减 操 作 所 设置 的 条 件 代 码 上 执行 测试 来 实现 。( 减 操 作 可 能 导致 上 溢出 和 
下 洲 出 ， 但 是 比较 操作 不 会 )。 因而， 只 要 在 dag 中 为 x-y 和 x>y 生 成 一 个 节点 即 可 。 

结合 律 亦 可 以 用 于 寻找 公共 子 表达 式 。 例 如 ， 如 果 源 代码 有 赋值 语句 


a := b+c 
e := c+tqd+p 


O ”编译 时 和 运行 时 对 算术 表达 式 的 计算 方式 应 该 是 一 样 的 。K. Thompson 已 经 提出 了 一 种 非常 好 的 常量 合并 


解决 办 法 : 编译 该 常量 表达 式 ， 在 该 点 执行 其 目标 代码 ， 并 用 结果 代替 该 表达 式 。 因 而 编译 器 不 需要 包含 
一 个 解释 器 。 
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则 可 能 生成 下 面 的 中 间 代 码 : 


a 
t 
e : 


b+c 
c+d 
t + b 


如 果 在 该 块 以 外 不 需要 上 ， 我 们 可 以 利用 + 的 交换 律 和 结合 律 将 该 序列 变换 为 : 


b+ c 
a+d 


a 
e 


因为 计算 机 算术 并 不 总 是 符合 数学 的 代数 恒等式 ， 编 译 器 的 编写 者 应 当 仔细 检查 语言 的 说 
明 以 决定 什么 样 的 计算 重组 是 允许 的 。 蔷 如 ， 如 果 括 号 的 完整 性 没有 破坏 Fortran 77 的 标准 
指出 编译 器 可 以 计算 任何 数学 上 等 价 的 表达 式 。 也 就 是 说 ， 编 译 器 可 以 把 x*y-x*z 看 成 
xx {y-z) ， 但 是 它 不 会 把 a+ (b-c) 看 成 (a+b)-c 因此 ， 如 果 要 依照 语言 的 定义 来 优化 程 
FE, ，Fortran 编 译 器 必须 明了 源 语言 中 括号 出 现 的 位 置 。 


10.4 流 图 中 的 循环 


在 考虑 循环 优化 之 前 ， 我 们 需要 定义 流 图 中 的 循环 是 由 什么 构成 的 。 我 们 将 使 用 一 个 节点 
“支配 ” 另 一 个 节点 的 概念 来 定义 自然 循环 和 重要 的 可 约 流 图 。 寻 找 支配 节点 和 检查 流 图 可 约 
性 的 算法 将 在 10.9 节 中 给 出 。 

10.4.1 支配 节点 

如 果 从 流 图 的 初始 节点 到 节点 n 的 每 条 路 径 都 要 经 过 节点 4， 则 说 节点 d 支 配 节点 a， 记 作 d 

dom n。 根 据 这 个 定义 ， 每 个 节点 支配 它 自身 ， 而 循环 的 入 口 则 支配 循环 中 所 有 的 节点 。 


例 10.6 ”考虑 图 10-13 的 流 图 ， 其 初始 节点 为 1。 初 始 节 点 支配 所 有 的 节点 。 节 点 2 仅 支 配 
它 自 身 ， 因 为 控制 可 以 沿 一 3 开始 的 路 径 到 达 任 何其 他 节点 。 除 节点 1 和 节点 2 以 外 ， 节 点 3 支 
配 其 他 所 有 的 节点 。 因 为 从 节点 1 出 发 的 所 有 路 径 都 必须 由 1 一 2 一 3 一 4 或 1 一 3 一 4 开始 ， 除 了 节 
点 1，2 和 3 以 外 ， 节 点 4 支配 其 他 所 有 的 节点 。 节 点 5 和 节点 6 只 支配 它们 自身 ， 因 为 控制 流 可 以 
经 过 其 中 一 个 节点 而 跳 过 另 一 个 节点 。 最 后 ， 节 点 7 支配 节点 7, 8, 9, 10， 节 点 8 支配 节点 8, 9, 
10， 而 节点 9 和 节点 10 只 支配 它们 自身 。 口 


表示 支配 节点 信息 的 一 种 有 用 形式 是 树 ， 叫 做 支配 树 。 其 中 ， 初 始 节点 是 树 根 ， 树 中 每 个 
节点 仅 支 配 其 后 代 节 上 点。 例如， 图 10-14 给 出 了 图 10-13 中 流 图 的 支配 树 。 





Q 
8) 
Q (19) 


图 10-13 FRE 图 10-14 图 10-13 中 流 图 的 支配 树 
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支配 树 的 存在 依赖 于 支配 节点 的 性 质 。 每 个 节点 n 有 一 个 惟一 的 直接 支配 节点 m， 它 在 初 
始 节点 到 n 的 任何 路 径 上 都 是 n 的 最 后 一 个 支配 节点 。 根 据 dom 关系 ， 直 接 支配 节点 m 有 下 
列 性 质 : 如 果 dn， hh ddomn, 那么 d dom mo 
10.4.2 自然 循环 

支配 节点 信息 的 一 个 重要 应 用 是 确定 流 图 中 适合 于 改进 的 循环 。 这 样 的 循环 应 具有 两 个 基 
本 性 质 : 

1. 循环 必须 有 惟一 的 人 口 点 ， 称 为 首 节点 〈header )。 这 个 人 口 点 支配 循环 中 的 所 有 节点 ， 
否则 它 不 是 该 循环 的 惟一 人 口 。 

2. 循环 至 少 迭 代 一 次 ， 也 就 是 至 少 有 一 条 返回 首 节点 的 路 径 。 

寻找 流 图 中 所 有 循环 的 一 种 好 办 法 是 找 出 流 图 的 回 边 S， 即 头 支配 尾 的 边 。( 如 果 ab 是 
一 条 边 ， 则 b Ek, a ER., ) 


例 10.7 在 图 10-13 中 ,4 dom 7，7 一 4 是 回 边 。 类 似 地 ，7 dom 10，10 一 7 是 回 边 。 其 他 的 
回 边 有 4 一 3 ，8 一 3 及 9 一 1。 注 意 ， 这 些 边 正好 是 流 图 中 有 可 能 形成 循环 的 那些 边 。 口 


给 定 一 条 回 边 nd， 我 们 定义 该 边 的 自然 循环 为 d 加 上 所 有 不 经 过 d 而 能 到 达 n MAA 
集合 。4 是 该 循环 的 首 节 点 。 


$10.8 ” 边 10 一 7 的 自然 循环 由 节点 7，8 和 10 组 成 ， 因 为 8 和 10 是 所 有 不 经 过 7 而 能 到 达 10 


的 节点 。 回 边 9 一 1 的 自然 循环 是 整个 流 图 。( 不 要 忘记 路 径 10 一 7 一 8 一 91 ) 0O 

算法 10.1 构造 回 边 的 自然 循环 。 procedure insert (m); 

输入 ， 流 图 G 和 回 边 nd。 if mK 7E loop*F then begin 

loop := loop U {m}, 

Mek: 由 nod 的 自然 循环 中 所 有 节点 构成 的 Hen A Bestact 
集合 loop。 end; 

方法 : 由 节点 n FR, SREB loop 中 的 /* 下面 是 主 程序 wy 
每 个 节点 m, méd, WEK m 的 前 驱 也 放 入 loop stack :一 空 ; 
中 。 算 法 如 图 10-15 所 示 。 除 d 以 外 ，loop 中 的 每 op tak 
个 节点 一 旦 加 入 stack， 就 要 检查 它 的 前 驱 。 注 意 ， while stack 非 空 do begin 
因为 d 是 初始 时 放 入 循环 的 ， 我 们 决 不 会 考察 它 的 从 stack 弹出 第 一 个 元 素 m 
前 驱 ， 因 此 找 出 的 只 是 那些 不 经 过 d 而 能 到 达 n 的 end ETHER do insert (p) 
节点 。 口 

, 图 10-15 自然 循环 的 构造 算法 

10.4.3 内 循环 


如 果 把 自然 循环 作为 “循环 "， 我 们 将 得 到 循环 的 一 个 有 用 的 性 质 : 除非 两 个 循环 的 首 节 
点 相同 ， 否 则 它们 或 者 不 相交 ， 或 者 一 个 完全 包含 ( 谈 入 ) 在 另 一 个 里 面 。 于 是 ， 暂 时 忽略 首 节 
点 相同 的 循环 ， 则 内 循环 的 概念 是 : 不 包含 任何 其 他 循环 的 循环 。 

当 两 个 循环 具有 相同 的 首 节点 时 ， 如 图 10-16 那 样 ， 则 很 难说 哪个 是 内 循环 。 例 如 ， 若 8 结 
尾 的 测试 为 : 

if a = 10 goto B, 
则 可 能 循环 (Bo, Bi, Bs} 是 内 循环 。 但 是 ， 如 果 不 详细 检查 代码 ， 我 们 不 能 保证 这 一 点 。 可 能 
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a 几 乎 总 是 10， 那 么 在 进入 及 之 前 会 环绕 循环 
{Bo，B1，B;} 很 多 次 。 所 以 我 们 认为 ， 当 两 个 EE 
自然 循环 具有 相同 的 首 节点 ， 并 且 不 是 一 个 峰 
在 另 一 个 里 面 时 ， 则 将 其 合并 ， 看 作 一 个 循环 。 
10.4.4 前 置 首 节 点 B, | 
某 些 变换 要 求 我 们 将 某 些 语句 移 到 首 节点 
的 前 面 。 于 是 在 开始 处 理 循环 工 之 前 ， 我 们 先 
创建 一 个 称 为 前 置 首 节点 的 新 块 。 前 置 首 节点 
的 惟一 后 继 是 蕊 的 首 节 点 ， 并 且 原 来 从 蕊 外 到 达 x AY 
Z 首 节点 的 边 都 改 成 进入 前 置 首 节点 。 从 循环 O'S RIPE RP ior 
里 面 到 达 首 节点 的 边 不 改变 。 这 种 整理 如 图 10-17 所 示 。 起 初 ， 前 置 首 节 点 为 空 ， 但 对 ZL 的 变换 
可 能 会 将 一 些 语句 放 到 该 节点 中 。 





a) b) 
图 10-17 前 置 首 节点 的 引入 
a) 引信 前 b) 引 人 后 

10.4.5 可 约 流 图 

实际 出 现 的 流 图 常常 属于 下 面 定 义 的 这 类 可 约 流 图 。 单 使 用 像 if-then-else, while-do, 
continue 和 break 这 样 的 结构 化 控制 流 语句 所 产生 的 程序 ， 其 流 图 总 是 可 约 的 。 甚 至 事先 不 知 
道 结 构 化 程序 设计 的 程序 员 用 goto 语句 编写 的 程序 ， 也 几乎 都 是 可 约 的 。 

对 于 可 约 流 图 , 已 经 提出 了 好 几 种 定义 。 我 们 采用 的 是 能 显示 出 其 最 重要 性 质 之 一 的 定义 ， 
即 不 存在 从 循环 外 到 循环 内 的 转移 ， 要 进入 循环 只 能 通过 其 首 节点 。 练 习 和 文献 注释 中 包含 该 
概念 的 主要 历史 。 

一 个 流 图 G 是 可 约 的 ， 当 且 仅 当 可 以 把 它 的 边 分 成 两 个 不 相交 的 组 ， 其 中 的 边 分 别 叫做 
前 向 边 和 回 边 ， 并 且 具 有 下 列 性 质 : 

1. 所 有 前 向 边 形成 一 个 无 环 有 向 图 ， 在 该 图 中 ， 每 个 节点 都 可 以 从 G 的 初始 节点 到 达 。 

2. 回 边 组 仅 由 前 面 所 定义 的 回 边 组 成 。 


例 10.9 ”图 10-13 中 的 流 图 是 可 约 的 。 通 常 ， 如 果 知 道 了 流 图 的 dom 关系 ， 就 可 以 找 出 并 
去 掉 所 有 的 回 边 。 如 果 流 图 是 可 约 的 , 那么 剩 下 的 边 必 定 是 前 向 边 。 所 以 要 检查 流 图 是 否 可 约 ， 
只 要 检查 所 有 前 向 边 是 否 构 成 无 环 有 向 图 便 可 以 了 。 对 于 图 
10-13， 如 果 删 掉 5 条 回 边 4 一 3，7 一 4，8 一 3，9% 一 1 和 10 一 7， 则 
很 容易 看 出 剩 下 的 图 是 无 环 的 。 口 


例 10.10 考虑 图 10-18 的 流 图 ， 其 初始 节点 为 1。 该 流 图 没 
有 回 边 ， 因 为 没有 头 支配 尾 的 边 。 因 此 ， 如 果 整 个 图 是 无 环 的 ， 图 10-18 一 个 不 可 约 流 图 
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那么 它 就 是 可 约 的 。 但 因为 它 不 是 无 环 的 ， 所 以 该 流 图 不 可 约 。 直 观 地 讲 ， 该 流 图 不 可 约 的 原 
因 是 可 以 从 节点 2 和 节点 3 两 处 进入 环 2-3。 o 


用 于 循环 分 析 的 可 约 流 图 有 一 个 关键 性 质 ， 就 是 当 流 图 中 的 一 些 节 点 被 看 作 是 循环 的 节点 
集合 时 ， 这 些 节 点 之 间 一 定 包含 一 条 回 边 。 事 实 上 ， 为 了 找 出 流 图 可 约 程序 中 的 所 有 循环 ， 只 
要 检查 回 边 的 自然 循环 即 可 。 相 反 地 ， 图 10-18 的 流 图 似乎 有 一 个 由 节点 2 和 节点 3 构成 的 “ 循 
IR”, ， 但 是 不 存在 这 样 的 回 边 ， 使 这 个 “循环 ”是 自然 循环 。 实 际 上 ， 该 “循环 ”有 两 个 首 节 
点 ， 即 节点 2 和 节点 3， 它 使 得 许多 代码 优化 技术 ， 如 10.2 节 介绍 的 代码 外 提 和 归纳 变量 删除 , 
都 不 能 直接 应 用 。 

幸好 ， 像 图 10-18 这 样 的 不 可 约 控制 流 结构 在 大 多 数 程序 里 面 很 少 出 现 ， 所 以 研究 具有 多 
个 首 节点 的 循环 没有 多 大 价值 。 甚 至 有 些 语言 ， 如 Bliss 和 Modula 2， 只 人 允许 程序 有 可 约 流 图 ; 
其 他 许多 语言 ， 只 要 不 使 用 goto 语句 ， 亦 只 产生 可 约 流 图 。 


例 10.11 再 次 回 到 图 10-13， 可 以 看 出 仅 有 的 “内 循环 ”是 {7, 8, 10} ， 它 是 回 边 10 一 7 的 
自然 循环 。 集 合 {4, 5, 6, 7, 8, 10} 是 7 一 4 的 自然 循环 ( 注意 ，8 和 10 可 经 边 10 一 7 到 达 7 )。 直 观 
BLE, (4,5, 6, 7} 是 一 个 循环 ,但 这 是 错 的 ， 因 为 4 和 7 都 是 人 口 点 ， 违 反 了 我 们 单 人 口 的 要 
求 。 从 另 一 个 角度 说 ， 没 有 理由 认为 控制 会 环绕 着 节点 集合 {4, 5, 6, 7} 消耗 较 多 的 时 间 ， 控 制 
从 7 到 8 的 次 数 与 从 7 到 4 的 次 数 相 比 很 难 知道 谁 多 谁 少 。 把 8 和 10 包 含 在 这 个 循环 里 ， 我 们 更 确 
信 已 分 离 出 了 程序 频繁 执行 的 一 个 区 域 。 

但 应 该 认识 到 ， 作 出 分 支 频率 的 假设 是 危险 的 。 例 如 ， 若 把 循环 {7, 8, 10} 中 的 不 变 语句 移 
出 8 或 10， 而 事实 上 控制 经 过 7 一 4 比 经 过 7 一 8 的 次 数 更 频繁 ， 因 此 ， 实 际 上 我 们 将 增加 被 移动 
语句 的 执行 次 数 。 我 们 将 在 10.7 节 讨论 避免 这 个 问题 的 方法 。 

下 一 个 较 大 的 循环 是 {3, 4, 5, 6, 7, 8, 10}， 它 是 回 边 4 一 3 和 8 一 3 的 自然 循环 。 同 前 面 一 样 ， 
如 果 把 {3, 4} 看 成 循环 将 违反 单 人 口 点 的 要 求 。 最 后 一 个 循环 〈 回 边 9 一 1 的 自然 循环 ) 是 整个 
流 图 。 口 


可 约 流 图 还 有 一 些 有 用 的 性 质 ， 我 们 将 在 10.9 节 讨论 深度 优先 搜索 和 区 间 分 析 的 时 候 ， 再 
对 其 进行 介绍 。 


10.5 全 局 数据 流 分 析 介 绍 


为 了 优化 代码 ， 编 译 器 需要 把 程序 作为 一 个 整体 来 收集 信息 ， 并 把 这 些 信 息 分 配给 流 图 的 
各 个 基本 块 。 例 如 ， 在 9.7 节 我 们 看 到 ， 了 和 解 每 个 基本 块 的 出 口 处 哪些 变量 是 活路 的 可 以 改进 
寄存 器 的 利用 率 。10.2 节 提出 了 怎样 用 全 局 公共 子 表达 式 的 知识 去 删除 元 余 计 算 ， 同 样 地 ，9%.9 
节 和 10.3 节 讨论 了 为 执行 像 常量 合并 和 无 用 代码 删除 这 样 的 变换 , 编译 器 怎样 利用 “到 达 定 义 ”。 
例如 ， 在 到 达 给 定 块 之 前 ， 要 知道 像 aebug 这 样 的 变量 是 在 哪里 最 后 被 定义 的 。 这 些 信息 只 是 
优化 编译 器 通过 数据 流 分 析 所 收集 到 的 数据 流 信息 的 少数 例子 。 

通过 在 程序 的 各 个 点 建立 和 求解 与 信息 有 关 的 方程 系统 即 可 收集 数据 流 信息 。 典 型 的 方程 
形式 如 下 : 

out [S] = gen [S] U (in [S] - kill {5] ) (10-5) 


这 个 方程 的 意思 是 ， 当 控制 流通 过 一 个 语句 时 ， 在 语句 末尾 得 到 的 信息 或 者 是 在 该 语句 中 产生 
的 信息 ， 或 者 是 进入 语句 开始 点 时 携带 的 并 且 没 有 被 这 个 语句 注销 的 那些 信息 。 这 样 的 方程 叫 
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做 数据 流 方程 。 

建立 和 求解 数据 流 方程 依赖 于 3 个 因素 : 

1. 产生 和 注销 的 概念 依赖 于 所 需要 的 信息 ， 即 依赖 于 所 要 解决 的 数据 流 分 析 问 题 。 而 且 ， 对 
于 某 些 问题 ,不 是 沿 着 控制 流 前 进 ， 由 in [5] 来 定义 out [5]， 而 是 反 向 前 进 ， 由 out [SRE Min[S]. 

2. 因为 数据 沿 控制 路 径流 动 ， 所 以 数据 流 分 析 受 程序 控制 结构 的 影响 。 事 实 上 ， 我 们 写 
out[$] 时 隐 含 地 认为 语句 有 一 个 惟一 的 结束 点 ; 一 般 地 ， 方 程 是 在 基本 块 级 而 不 是 在 语句 级 建 
立 的 ， 因 为 基本 块 确实 有 惟一 的 结束 点 。 

3. 有 些 难以 捉摸 的 问题 会 伴随 着 像 过 程 调 用 、 通 过 指针 变量 的 赋值 甚至 对 数组 变量 的 赋值 
等 语句 而 产生 。 . 

在 本 节 中 ， 我 们 将 考虑 如 何 确定 到 达 程 序 中 某 一 点 的 定义 的 集合 以 及 它们 在 寻找 常量 合并 
的 机 会 中 的 用 途 。 在 本 章 的 后 面 ， 代 码 外 提 和 归纳 变量 删除 算法 也 将 使 用 这 些 信息 。 

开始 我 们 先 考虑 用 if 和 do-while 语句 构造 的 程序 。 这 些 语句 中 可 预测 的 控制 流 允 许 我 们 
将 注意 力 集中 在 需要 建立 和 求解 数据 流 方程 的 地 方 。 本 节 中 的 赋值 语句 是 复制 语句 或 者 是 形 如 
a := brc 的 语句 。 本 章 中 我 们 将 经 常用 “+” 作 为 一 种 典型 的 运算 符 。 我 们 所 讲 的 所 有 内 容 均 
可 直接 应 用 于 其 他 运算 符 ， 包 括 单 运算 对 象 和 多 于 两 个 运算 对 象 的 运算 符 。 
10.5.1 点 和 路 径 

在 基本 块 中 ， 我 们 将 经 常 谈 到 相 邻 语句 间 
的 点 ， 以 及 第 一 个 语句 前 和 最 后 一 个 语句 后 的 
点 。 例 如 ， 图 10-19 中 的 块 B AAT A: 第 1 个 点 
在 所 有 赋值 语句 前 ， 每 个 语句 后 还 各 有 1 个 点 。 

现在 ， 我 们 以 全 局 观点 来 考虑 所 有 块 中 的 
所 有 点 。 从 pi 到 p, 的 路 径 是 点 的 序列 po po, 
-，p,， 而 且 对 1 和 n-1 间 的 每 个 i 满足 下 面条 
件 1、2 中 的 一 个 : 

1. 站 是 紧 接 在 一 个 语句 前 面 的 点 ，pni 是 同 
一 块 中 紧 跟 在 该 语句 后 面 的 点 。 

2. pi 是 某 基本 块 的 结束 点 ， 而 pi 是 后 继 块 
的 开始 点 。 


例 10.12 在 图 10-19 中 ， 有 一 条 从 块 B; 的 开始 到 块 B 的 开始 的 路 径 。 它 经 过 块 Bs 的 最 后 
一 点 ， 然 后 依次 通过 块 B2:，B; 和 Bs 的 所 有 点 ， 最 后 到 达 块 B 的 开始 。 口 
10.5.2 到达 定义 

变量 x 的 定义 是 一 条 赋值 或 可 能 赋值 给 x 的 语句 。 最 普通 的 定义 是 对 x 的 赋值 或 从 VO 设 
备 读 一 个 值 并 存储 在 x 中 的 语句 ， 这 些 语 句 的 确 为 x 定义 了 一 个 值 ， 称 为 x 的 明确 定义 。 也 
还 有 一 些 语句 ， 它 们 可 能 为 x 定义 一 个 值 ， 叫 做 含糊 定义 。x 的 含糊 定义 的 最 常见 形式 为 : 

1. 把 x 作为 参数 的 过 程 调用 ( 传 值 参数 除外 ) 或 者 可 能 访问 x 的 过 程 ， 因 为 x 在 过 程 的 
作用 域 之 内 。 还 要 考虑 “别名 ”的 可 能 性 ，x 虽然 不 在 该 过 程 的 作用 域内 ， 但 x 等 同 于 另 一 个 
变量 ， 这 个 变量 被 作为 参数 传递 或 在 此 作用 域内 。 

2. 通过 可 能 指向 x 的 指针 赋值 。 例 如 ， 如 果 q 可 能 指向 x 的 话 ， 则 赋值 语句 *q :=y 是 x 
的 定义 。 确 定 指针 可 能 指向 什么 变量 的 方法 将 在 10.8 节 进行 讨论 。 在 这 里 由 于 不 清楚 指针 具体 





图 10-19 一 个 流 图 


指向 哪个 变量 ， 我 们 必须 假定 通过 指针 的 赋值 是 对 每 个 变量 的 定义 。 
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如 果 存 在 一 条 从 紧 跟 d 的 点 到 p 的 路 径 ， 并 且 在 这 条 路 径 上 d 没有 被 “注销 ”， 则 说 定义 
4 到达 点 p。 直 观 地 ， 如 果 某 个 变量 a 的 定义 d 到 达 点 p， 那 么 p 引用 的 a 的 最 新 定义 可 能 在 
位 置 4。 如 果 沿 着 这 条 路 径 的 某 两 点 间 存 在 a 的 定义 ， 那么 我 们 将 注销 ( kill ) 变量 a 的 那个 定 
x. ER, RA a 的 明确 定义 才能 注销 a 的 其 他 定义 。 这 样 ， 一 个 点 可 以 由 一 条 路 径 上 的 明 
确定 义 和 出 现在 后 面 的 同一 变量 的 含糊 定义 到 达 。 

例如 ， 图 10-19 的 块 B 中 的 定义 i := m-1 和 j := n BAR B 的 开始 点 ， 如 果 在 块 B4 和 块 
5 中 不 对 j 赋 值 或 读 j， 块 B 的 定义 j := j-1 后 面 的 部 分 也 是 如 此 ,那么 定义 j := j-1 也 可 到 
TAR B,。 不 过 ， 块 B; 中 对 j 的 赋值 注销 了 定义 j :=n， 因 此 这 个 定义 不 能 到 达 块 Ba, Bs 或 Boo 

通过 定义 前 面 的 到 达 定 义 ， 有 了 时 我 们 允许 一 定 的 不 精确 但是， 它们 都 是 在 “安全 ” 利 
“稳妥 ”的 范围 内 。 例 如 ， 我 们 假设 流 图 的 所 有 边 都 能 被 遍历 到 ， 但 实际 上 可 能 不 是 这 样 。 全 
如 ， 不管 a 和 bb 是 什么 值 ， 控 制 也 不 会 到 达 下 面 程序 段 中 的 赋值 语句 a := 4; 


if a = b then a := 2 
else if a = b then a := 4 


一 般 地 ， 确 定 流 图 中 是 否 每 条 路 径 都 会 被 经 过 是 一 个 不 可 判定 问题 ， 我 们 不 打算 解决 这 个 问题 。 

再 次 提醒 一 下 ， 在 设计 代码 改进 变换 时 ， 面 临 任何 怀疑 ， 我 们 都 必须 采取 保守 的 决策 ， 虽 
然 保 守 决 策 会 使 我 们 失去 某 些 实际 上 可 安全 进行 的 变换 。 如 果 一 个 决策 永远 不 会 导致 程序 计算 
结果 的 改变 ， 则 该 决策 就 是 保守 的 。 在 到 达 定 义 的 应 用 中 ， 假 定 定 义 能 够 到 达 一 个 可 能 不 会 到 
达 的 点 是 保守 的 。 从 而 ， 在 程序 的 任何 执行 中 ， 我 们 允许 存在 可 能 总 也 不 会 被 避 历 的 路 径 ， 而 
且 允 许 定义 穿越 同一 变量 的 含糊 定义 。 
10.5.3 结构 化 程序 的 数据 流 分 析 

像 qo-while 语 名 这 样 的 控制 流 结构 的 流 图 具有 一 种 有 用 的 性 质 : 控制 只 能 从 一 个 开始 点 进 
入 ， 而 且 当 语句 结束 时 只 能 从 一 个 结束 点 离开 。 对 下 面 语法 所 表示 的 语句 ， 当 我 们 讨论 到 达 语 
名 开始 和 结束 的 定义 时 可 以 发 现 这 条 性 质 。 

S>id:=E | S;S | ifE thenS elseS | doS while E 

E > id+id | id 
该 语言 中 的 表达 式 和 中 间 代 码 中 的 相似 ， 但 是 语句 的 流 图 限制 在 图 10-20 中 的 形式 之 内 。 这 一 
节 的 首要 目的 是 研究 图 10-21 中 的 数据 流 方程 。 





§, 383 if E then S, else S, do S| while E 
图 10-20 一 些 结构 化 控制 结构 


我 们 将 流 图 中 的 一 部 分 ( 称 为 区 域 ) 定义 为 包含 首 节点 的 一 组 节点 N， 其 中 首 节 点 支配 区 
域 中 的 所 有 其 他 节点 。 除 了 进入 首 节 点 的 那些 边 以 外 ，N 中 所 有 节点 之 间 的 边 都 在 区 域 中 9。 


日 ”循环 是 区 域 的 特例 ， 它 是 强 连通 的 ， 而 且 包 含 所 有 到 首 节点 的 回 边 。 
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与 语句 S 对 应 的 那 部 分 流 图 是 一 个 区 域 ， 它 遵守 更 严格 的 限制 : 


流 到 一 个 外 面 的 块 中 。 


处 的 开始 点 分 别 是 该 语句 的 开始 点 和 结束 点 。 


中 时 


og 


gen{S] = {d} 
KllS1 = Da ~id} 


out(S] = gen[S} U (nlSl 一 AS]) 


gen{S) = gen|S2} U (gen[S,) — kill{S2)) 
kill [S] = Kill [S2] U (Kill[S1] — gen[S2}) 


in(S,] = in{S] 
in(S2] = our[S,] 
out|S] = out{S2} 


gen{S] = gen[S,] U gen[S2] 
KiU[S] = KS, | N kill (S 2] 
in(S,] = in(S] 
in(S2}] = in{S] 
out (S| = out(S,] U out(S2] 


gen[S]} = gen{S,) 
KilllS} = ES 


in{S,] = in(S] U gen[S,] 
out [S] = out(S,] 


图 10-21 到 达 定义 的 数据 流 方程 


为 了 技术 上 的 方便 ， 我 们 假设 有 一 个 没有 畜 名 的 哑 块 〈 图 10-20 中 由 空心 圆 表示 )， 控 制 刚 
好 在 进入 区 域 之 前 或 者 刚好 在 离开 区 域 之 后 才 通 过 这 种 块 。 哑 块 在 一 个 语句 区 域 的 人 口 和 出 口 
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当 控 制 离开 该 区 域 时 ， 只 可 以 


图 10-21 中 的 方程 是 关于 所 有 语句 5 的 in[S], our{S], gen{S) 和 kilis) 集合 的 归纳 定义 或 者 


说 是 语法 制导 定义 。 


合 genls] 和 kills] 是 综合 属性 ， 它 们 是 自 底 向 上 、 从 最 小 的 语句 集 到 


最 大 的 语句 集 进 行 计算 的 。 我 们 的 要 求 是 如 果 d 到 达 $ 的 末尾 ， 则 定义 4d 在 gen[S] 中 ， 而 与 它 
是 否 到 达 S 的 开始 无 关 。 从 另 一 个 角度 来 看 ，d 必须 出 现在 5 中 并 且 通 过 不 会 转 到 S 外 面 的 路 


径 到 达 S 的 末尾 。 这 就 是 称 gen[S] 是 “由 5 产生 的 ”定义 之 集 的 理由 。 


类 似 地 ， 我 们 想 让 kS 作为 从 未 到 达 5 末尾 的 定义 的 集合 ( 即使 它们 能 到 达 S 的 开始 )。 
这 样 ， 将 这 些 定义 看 成 “被 5 注销 ”是 有 意义 的 。 为 了 使 定义 d 在 kius H, A S 的 开始 到 未 
尾 的 每 一 条 路 径 上 都 必须 有 一 个 d 所 定义 的 同一 变量 的 明确 定义 ,而 且 如 果 a 出 现在 3 中 , 则 


其 后 沿 任 意 路 径 的 4 的 每 次 出 现 都 必须 是 同一 


变量 的 另 一 个 定义 。” 


因为 是 综合 翻译 ，gen 和 kill 的 规则 比较 容易 理解 。 首 先 ， 观 察 图 10-21a 中 对 变量 a 的 一 
个 赋值 的 规则 。 该 赋值 语句 确实 是 a 的 定义 , 假定 为 定义 do RADE d 是 否 到 达 语 名 的 开始 ， 
它 是 惟一 的 确实 能 到 达 语 名 未 尾 的 定义 。 因 此 ， 


Sen[S 1] = 


{d} 


另 一 方面 ，d 注销 了 a 的 所 有 其 他 定义 ， 所 以 我 们 有 


kill |S} = 


D,—{d} 
O 本 节 是 介绍 性 的 ， 我 们 将 假定 所 有 的 定义 都 是 明确 的 。10.8 节 将 处 理 含糊 定义 所 需要 的 修正 。 
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RF, Da 是 程序 中 变量 a 的 所 有 定义 的 集合 。 

如 图 10-21b 所 示 ， 串 联 语句 的 规则 更 微妙 一 些 。 由 S = 5 S 所 产生 的 定义 d 所 处 的 环境 
是 什么 呢 ? 首先 ， 如 果 它 是 由 8 产生 的 ,那么 它 当 然 就 是 由 8 产生 的 。 如 果 4 是 由 8 产生 的 ， 
假设 它 没 有 被 S: 注销 它 将 到 达 $ 的 末尾 。 于 是 ， 我 们 有 

gen[S] = gen[S2] U (gen[S,] — kill{S2]) 

将 同样 的 推理 应 用 于 定义 的 注销 ， 我 们 将 得 到 

kill {S} = kill[S.] U (kill|Si] — genlS2)) 

如 图 10-21c 所 示 ， 对 于 站 语句 ,我 们 注意 到 : 如 果 主语 名 的 任 一 分 支 产生 一 个 定义 ， 那 么 
该 定义 将 到 达 语 句 5 的 末尾 。 从 而 ， 

gen[S} = gen[S,| U genlS>} 


但 是 , 为 了 注销 定义 4, 在 从 $ 的 开始 到 S 的 结束 的 所 有 路 径 上 d 所 定义 的 变量 都 必须 被 注销 。 
特别 地 ， 它 必须 在 任何 分 支 上 都 被 注销 ， 所 以 


AS = US Q kill {S2} 


最 后 ， 考 虑 图 10-21d 中 循环 的 规则 。 简 而 言 之 ， 循 环 对 gen 和 kill 不 会 产生 影响 。 如 果 定 
义 d 是 在 8 中 产生 的 ， 那 么 它 将 到 达 S 和 5 的 末尾 。 相 反 ， 如 果 d 是 在 $ 中 产生 的 ， 它 只 可 能 
是 在 S 中 产生 的 。 如 果 d 被 8 注销， 那么 执行 循环 将 不 起 作用 ，4d 的 变量 在 每 一 次 循环 中 都 
将 在 51 中 被 重新 定义 。 相 反 ， 如 果 d 被 5 注销 ， 那 么 它 一 定 是 被 9 注销 的 。 我 们 的 结论 是 : 

gen[S] = genlS'i] 

kill(S] = kill(S,] 

10.5.4 对 数据 流 信 息 的 保守 估计 

在 图 10-21 中 给 出 的 gen 和 kil 的 规则 中 ， 有 一 处 细微 的 误 算 。 我 们 已 经 假设 if 和 do 语句 
中 的 条 件 表达 式 E 是 “不 可 解释 ”的 ， 也 就 是 说 ， 存 在 使 程序 的 控制 经 过 某 一 分 支 的 输入 。 另 
一 方面 ， 我 们 假设 流 图 中 的 任何 图 论 路 径 也 是 执行 路 径 ， 即 当 程序 以 至 少 一 个 可 能 的 输入 运行 
时 被 执行 的 路 径 。 

这 种 情况 并 不 是 总 能 发 生 的 ， 事 实 上 通常 我 们 不 能 确定 哪 一 个 分 支 将 被 选中 。 例 如 ， 假 设 
if 语句 中 的 表达 式 E 总 为 真 ， 那么 在 图 10-21c 中 通过 S. 的 路 径 将 永远 不 能 被 选中 。 这 将 带 来 
两 个 结果 。 第 一 ， 由 5, 产生 的 定义 并 不 真 的 是 由 5S 产生 的 ， 因 为 没有 从 5 的 开始 到 达 语 句 S 
Mme. Bo, kil [$1] 中 没有 定义 能 到 达 5 的 末尾 。 因 此 ， 每 一 个 这 样 的 定义 即使 不 在 
kill[S] 中 , eH EAE kill [S] 中 。 o 

当 我 们 将 计算 出 来 的 gen 和 真实 的 gen 进行 比较 时 ， 我 们 发 现 真实 的 gen 总 是 计算 出 来 的 
gen 的 子 集 。 另 一 方面 ， 真 实 的 kill 总 是 计算 出 来 的 kill 的 超 集 。 这 些 包含 关系 即使 在 我 们 考 
虑 图 10-21 的 其 他 规则 时 仍然 成 立 。 壁 如， 如 果 do-5-while-E 语句 中 的 表达 式 E 永 远 不 能 为 假 ， 
那么 我 们 就 不 能 从 循环 中 跳出 。 这 样 ， 真 实 的 gen 就 是 名， 而 且 每 一 个 定义 都 被 循环 注销 了 。 
在 图 10-21ib 中 语句 串联 的 情况 下 ， 必 须 考 虑 由 于 无 穷 循环 而 不 能 从 51 或 S 跳出 的 情况 ， 我 们 
将 其 留 作 练习 。 

很 自然 地 会 考虑 到 ， 在 真实 的 gen 和 kil 与 计算 出 的 gen 和 kill 之 间 存 在 差异 是 否 会 对 数 
据 流 分 析 产 生 严 重 的 影响 。 答 案 依赖 于 这 些 数据 的 用 途 。 在 到 达 定 义 这 种 特定 情况 下 ， 我 们 通 
常 利用 这 些 信 息 来 推断 在 某 一 点 上 变量 x 的 值 是 否 被 限制 在 一 个 可 能 性 很 少 的 范围 内 。 例 如 ， 
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如 果 我 们 发 现 到 达 该 点 的 x 的 惟一 定义 是 形 如 x := 1 的 语句 ,我 们 可 以 推断 在 该 点 上 x 的 值 为 1。 
于 是 ， 我 们 可 以 决定 用 对 1 的 引用 取代 对 x 的 引用 。 

因而 ， 过 高 地 估计 到 达 一 个 点 的 定义 集合 看 起 来 并 不 严重 ， 它 只 不 过 会 阻止 我 们 进行 一 些 
合理 的 优化 。 另 一 方面 , 过 低地 估计 定义 集合 却 是 致命 的 错误 ， 它 会 导致 改变 程序 的 计算 结果 。 
例如 ， 我 们 可 能 认为 x 的 所 有 到 达 定 义 都 给 x 赋 值 1， 因 而 用 1 取代 x， 但 是 可 能 存在 另 一 个 未 
检测 到 的 到 达 定 义 给 x 赋值 2。 于 是 ， 对 于 到 达 定 义 这 种 情况 ， 如 果 估 计 集 是 真实 到 达 定 义 集 
合 的 超 集 (不 需要 是 真 超 集 )， 则 称 定义 集合 是 安全 的 或 是 保守 的 。 如 果 它 不 是 真实 集合 的 超 
集 ， 则 称 估 计 是 不 安全 的 。 

对 于 每 一 个 数据 流 问 题 ， 我 们 必须 检查 不 准确 估计 对 它们 可 能 导致 的 各 种 程序 变化 所 产生 
的 影响 。 通 常 我 们 会 接受 安全 的 差异 ， 因 为 它们 至 多 只 能 阻止 合法 优化 的 进行 ， 但 我 们 不 能 接 
受 不 安全 的 差异 ， 因 为 它们 可 能 会 导致 改变 程序 行为 的 优化 。 在 每 一 个 数据 流 问题 中 ， 真 实 答 
案 的 子 集 或 者 超 集 通常 是 安全 的 (但 二 者 不 能 同时 满足 )。 

现在 回 到 对 到 达 定 义 的 gen 和 kill 进行 安全 估计 的 问题 上 来 ， 请 注意 其 中 的 差异 ，gen 的 
超 集 和 kil 的 子 集 都 在 安全 的 范围 内 。 直 观 地 ， 增 加 gen 将 会 增加 到 达 一 个 点 的 定义 的 集合 ， 
但 不 能 阻止 一 个 定义 到 达 它 确实 能 到 达 的 地 方 。 同 样 地 ， 减 少 kill 只 能 增加 到 达 任 何 给 定点 的 
定义 的 集合 。 

10.5.5 in 和 out 的 计算 

许多 数据 流 问 题 可 以 像 计 算 gen 和 kill 那样 用 综合 翻译 来 解决 。 例 如 ， 我 们 可 能 希望 为 每 
一 个 语句 5 确定 由 5 定义 的 变量 集合 。 这 样 的 信息 可 以 通过 类 似 于 gen 的 方程 来 计算 ， 它 甚至 
不 需要 类 似 于 kil 的 集合 。 璧 如， 这 个 方法 可 以 用 来 确定 循环 不 变 的 计算 。 

当然 ， 还 存在 许多 其 他 类 型 的 数据 流 信息 ， 如 我 们 曾经 当 作 例子 的 到 达 定 义 问题 ， 我 们 还 
需要 计算 某 些 继承 属性 。 可 以 证 明 in 是 一 个 继承 属性 ，out 是 依赖 于 in 的 综合 属性 。 考 虑 到 
整个 程序 的 控制 流 ， 我 们 希望 ins) 是 到 达 S 开始 的 定义 的 集合 ， 包 括 在 S 之 外 的 语句 或 者 包 
HS 的 语句 。 类 似 地 可 以 定义 out[5] 为 到 达 5 结束 的 定义 的 集合 。 但 一 定 要 注意 outis) 
gen[5] 的 区 别 。 后 者 是 没有 经 过 5 外 面 的 路 径 而 到 达 5 结尾 的 定义 的 集合 。 

作为 二 者 区 别 的 一 个 简单 例子 ， 考 虑 图 10-21b 中 的 串联 语句 。 语 句 d 可 能 是 在 .$, 中 产生 
的 ， 所 以 会 到 达 S 的 开始 。 如 果 d 不 在 kilat, d 将 到 达 52 的 末尾 ， 因 此 会 在 outst. 
但 是 ，d 不 在 gen[fS] 中 。 , 

如 果 56 是 整个 程序 ， 那 么 inL5o] =O. BTM, 在 自 底 向 上 地 为 所 有 的 语句 3 计算 完 gen[S] 
和 KillS] 之 后 ， 我 们 就 可 以 从 表示 整个 程序 的 语句 开始 计算 in 和 out。 也 就 是 说 ， 没 有 定义 会 
到 达 整 个 程序 的 开始 。 对 于 图 10-21 中 的 每 一 种 语句 ， 我 们 可 以 假设 in[5] 是 已 知 的 。 我 们 必须 
利用 它 来 计算 S 的 每 一 个 子 语句 的 in( 第 2~4 种 情况 元 足 轻 重 ， 而 第 1 种 情况 是 不 相关 的 )。 然 
后 ， 我 们 递归 地 ( 自 顶 向 下 ) 计算 每 一 个 子 语句 8 或 9% 的 ont， 并 用 这 些 集合 计算 out[5]。 

最 简单 的 情况 是 图 10-21a， 其 中 只 有 一 个 赋值 语句 。 假 设 infS] 是 已 知 的 ， 我 们 用 方程 
(10-5) 来 计算 out, JPEN: 

out|S] = gen[S] U (in[S] — kill{S}) 

如 果 一 个 定义 是 由 5 产生 的 (BEX d 是 一 个 语句 )， 或 者 它 到 达 语 句 8 的 开始 而 且 没有 被 该 
语句 注销 ， 那 么 该 定义 会 到 达 S 的 末尾 。 | 

假设 我 们 已 经 算出 了 ins], TH S 是 两 个 语句 S S 的 串联 ， 如 图 10-21 的 第 二 种 情况 那 
样 。 我 们 从 in[S1] = inis) 开始 。 然 后 ， 我 们 递归 地 计算 outS]， 从 它 我 们 可 以 得 到 in[S.], 2X 
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是 因为 当 且 仅 当 一 个 定义 到 达 $ 的 末尾 时 该 定义 才 到 达 S: 的 开始 。 现 在 我 们 可 以 递归 地 计算 
ouit[S;]， 该 集合 与 out[S1 相 等 。 

接 下 来 ， 考 虑 图 10-21c 中 的 if 语 句 。 因 为 我 们 已 经 保守 地 假设 控制 会 经 过 每 个 分 支 ， 当 一 
个 定义 到 达 S 的 开始 时 ， 它 也 恰好 到 达 S, 或 者 S 的 开始 ， 亦 即 : 

in[S,] = in[S2] = in[S} 
从 图 10-2ic 中 的 图 还 可 以 看 出 ， 当 且 仅 当 一 个 定义 到 达 了 一 个 或 者 所 有 子 语句 的 末尾 时 该 定义 
ABA SHARE, BN 

out[S] = out(S,] U out[S;] 


于 是 ， 我 们 可 以 使 用 这 些 方程 通过 in[5] 来 计算 in[51] 和 in[5;]， 再 递归 地 计算 outis) out[52]， 
然后 用 它们 来 计算 out[5]。 
10.5.6 ”处 理 循环 

最 后 一 种 情况 ， 图 10-21d4 有 一 些 特殊 问题 。 我 们 再 次 假设 genls] 和 kills] 已 经 被 自 底 向 
上 地 算出 ， 还 假定 in[S] 已 经 给 定 ， 就 如 同 在 对 分 析 树 执行 深度 优先 遍历 的 过 程 中 那样 。 和 情 
况 (b) 与 (c) 不 同 的 是 ， 我 们 不 能 简单 地 将 in[5] 作为 in[51] 使 用 ,因为 Ss 中 到 达 9 末尾 的 定义 
能 够 沿 着 弧 线 返回 到 S: 的 开始 ， 因 此 这 些 定义 也 在 ins) 中 。 更 合适 地 ， 我 们 有 : 

in[S,] = in[S] U out[S1} . (10-6) 
对 outl S] 显然 有 如 下 方程 ， 

out{S] = our[S,] 


一 旦 我 们 计算 出 out[S,]， 就 可 以 使 用 该 方程 。 但是， 看 来 似乎 只 有 在 计算 出 out[51] 之 后 我 们 
才能 用 (10-6) 计 算 in[5,] ， 而 我 们 本 来 是 要 先 计算 语句 的 让， 再 用 它 来 计算 our 的。 
幸运 的 是 ， 有 一 个 根据 in 计算 out 的 直接 方法 ，(10-5) 中 已 经 给 出 ， 在 本 例 中 其 形式 如 下 : 
out(S] = gen[S;] U (ia[S -US) (10-7) 


理解 这 里 发 生 了 什么 是 非常 重要 的 。 我 们 并 没有 真正 明白 为 什么 (10-7) 对 于 任意 的 语句 8 
都 是 正确 的 ， 我 们 只 是 猜测 它 应 该 是 正确 的 ， 因 为 感觉 上 ， 当 且 仅 当 一 个 定义 是 在 该 语句 中 产 
生 的 或 者 它 到 达 语 句 的 开始 而 且 没 有 被 该 语句 注销 时 ， 该 定义 才 应 该 到 达 语 名 的 末尾 。 但 是 ， 
我 们 知道 ， 为 一 条 语句 计算 out 的 惟一 方法 是 利用 图 10-21a 至 图 10-21c 中 给 出 的 公式 。 首 先 ， 
我 们 要 假设 (10-7) 成 立 并 推导 出 图 10-21d 中 in 和 out 的 方程 。 然 后 ， 我 们 能 够 用 图 10-21a 至 图 
10-21d 中 的 方程 证 明 (10-7) 对 任意 的 8 都 成 立 。 通 过 对 语句 5 的 大 小 进行 归纳 ， 我 们 可 以 将 这 
些 证 明 合 在 一 起 构成 一 个 有 效 的 证 明 : 方程 (10-7) 和 所 有 图 10-21 中 的 方程 对 于 S 和 它 的 所 有 子 
语句 均 成 立 。 我 们 不 准备 证 明 而 将 其 留 作 练习 ， 但 是 下 面 进行 的 推理 有 一 定 的 指导 作用 。 

即使 假设 (10-6) 和 (10-7) 均 成 立 ， 我 们 仍然 没有 脱离 困境 。 这 两 个 方程 同时 对 ia[S] 和 
out[S1] 进行 循环 定义 。 我 们 可 以 将 方程 简写 为 

o Gud ~ K) (10-8) 
其 中 1，O，J，G 和 下 分 别 对 应 着 in[S.], out [Si], in[S], gen [Si] 和 kil [$1]。 前 两 个 是 变量 ， 
其 他 三 个 是 常量 。 

为 求解 方程 (10-8)， 开 始 我 们 假设 0 = 包 。 然 后 ， 我 们 可 以 用 (10-8) 的 第 一 个 方程 得 到 了 的 
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一 个 估计 ， 即 
l =J/ 


接 下 来 ， 我 们 可 以 利用 第 二 个 方程 得 到 对 O 的 更 好 的 估计 : 
o'=GUUC'-K)=GUWU-K) 

将 第 一 个 方程 用 于 0 的 这 个 新 的 估计 上 ， 我 们 得 到 : 
P=JU0'=JUGUU-K)=JUG 

如 果 我 们 再 应 用 第 二 个 方程 ， 则 0 的 下 一 估计 是 : 
O?=GU(P-K)=GUVUUG-—K)=GUVWV—-K) 


注意 ，0? = 0!。 这 样 ， 如 果 我 们 计算 的 下 一 个 估计 ， 它 将 等 于 1 ，7 使 得 我 们 对 O 的 下 
一 次 估计 等 于 0!1， 如 此 等 等 。 于 是 , I 和 0 的 限制 值 是 上 面 给 出 的 7 和 o 的 值 。 从 而 ， 我 们 
可 以 导出 图 10-21d 中 的 方程 ， 即 


in{S1] = in[S] U gen[S,] 
out{S] = out{S,) 


第 一 个 方程 是 从 上 面 的 计算 得 来 的 ， 第 二 个 是 对 图 10-21d 中 的 图 进行 分 析 得 来 的 。 

剩 下 的 细节 是 为 什么 我 们 有 资格 从 估计 O = 名 开始 。 回 忆 一 下 我 们 对 于 保守 估计 的 讨论 ， 
我 们 建议 O 所 代表 的 像 ourt[51] 这 样 的 集合 应 当 多 舍 计 一 些 而 不 是 少 估 计 。 事 实 上 ， 如 果 我 们 
从 OO = {d} 开 始 ， 其 中 d 是 没有 出 现在 J，G 入 中 的 定义 ,那么 4 应 当 在 对 和 0 的 限制 取 
值 中 结束 。 

在 此 ， 我 们 必须 援引 in 和 ow 的 预期 含义 ， 如 果 这 样 的 4 确实 在 in[5S1] 中 ， 就 必须 有 一 条 
从 d 到 Si 的 开始 的 路 径 ， 它 说 明了 d 是 怎样 到 达 那 个 点 的 。 如 果 d 在 5 之 外 ， 那么 4 必须 在 
in[S] 中 ， 而 如 果 4 在 8 中 (从 而 在 $1 中 )， 它 必须 在 gen[$1] 中 。 在 第 一 种 情况 下 ,4 在 J 中 ， 
故 利 用 (10-8) 可 以 放 到 了 中 。 在 第 二 种 情况 下 ,，d 在 G 中 ， 利 用 (10-8) 中 的 0 又 可 传 到 7 中 。 结 
论 是 ， 从 非常 小 的 估计 开始 ， 并 通过 将 更 多 的 定义 加 入 了 和 O 来 向 上 构建 是 估计 in[51] 的 一 种 
安全 的 方法 。 
10.5.7 集合 的 表示 

使 用 位 向 量 可 以 简洁 地 表示 像 gen[S] 和 kills] 这 样 的 定义 的 集合 。 我 们 为 流 图 中 每 个 感 
兴趣 的 定义 分 配 一 个 号 码 ， 那 么 表示 定义 集合 的 位 向 量 在 位 置 i 的 值 为 1 的 充分 必要 条 件 是 ， 
编号 为 i 的 定义 在 该 集合 中 。 

定义 语句 的 编号 可 以 被 看 作 是 一 个 数组 中 语句 的 索引 ， 该 数组 中 存 有 指向 语句 的 指针 。 但 
是 ,在 全 局 数据 流 分 析 中 并 不 是 所 有 的 定义 都 是 我 们 感 兴趣 的 。 例 如 ， 只 用 在 单个 块 中 的 临时 
变量 的 定义 就 不 需要 赋予 编号 ， 计 算 表 达 式 时 产生 的 大 部 分 临时 变量 就 是 这 样 的 。 因 此 ， 感 兴 
趣 的 定义 的 编号 将 被 存放 在 一 个 单独 的 表 中 。 

集合 的 位 向 量 表示 还 可 以 高 效 地 实现 集合 操作 。 两 个 集合 的 并 和 交 操 作 可 分 别 用 逻辑 或 
(or) 和 逻辑 与 (and ) 来 实现 ， 这 是 大 多 数 面 向 系统 的 程序 设计 语言 所 提供 的 基本 操作 。 集 合 
A FIB 的 差 A -8B 可 以 通过 求 B 的 补 集 ， 然 后 利用 逻辑 与 (and ) 来 计算 4A-B 来 实现 。 


例 10.13 ”图 10-22 给 出 了 一 段 含 有 7 个 定义 的 程序 ， 并 在 语句 左面 的 注释 中 将 这 7 个 定义 标 
记 为 di 到 d;。 图 10-23 的 语法 树 中 ， 在 每 个 节点 的 左面 给 出 了 表示 图 10-22 中 各 语句 的 gen 和 
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kill 集合 的 位 向 量 。 这 些 集合 本 身 是 通过 对 语法 树 
节点 所 表示 的 语句 使 用 图 10-21 的 数据 流 方程 计算 
出 来 的 。 

考虑 图 10-23 右 下 角 的 节点 di, gen BAA 
000 0001K ER, kill ES {d, ds} 用 100 1000 表 示 。 





也 就 是 说 ， 注销 了 其 变量 i 的 所 有 其 他 定义 。 iE e1 then 
if 节点 的 第 二 个 和 第 三 个 子 节 点 分 别 表示 条 件 else 
语句 的 then 和 else 部 分 。 注 意 , 在 证 节点 上 的 nile a := u3 
gen 集合 000 0011 是 在 第 二 个 和 第 三 个 子 节点 上 的 
集合 000 0010 和 000 0001 的 并 。kill 集合 是 空 集 ， 图 10-22 说 明 到 达 定 义 的 程序 
因为 被 then 和 else 注销 的 定义 是 不 相交 的 。 
001 1111 
1110000 110 0000 ; 
ioo Un, 
000 1101 001 i 
ooo voor 2" 010 . , 000 11 
000 0100 


000 1111 110 0000 
110 0000 . -一 ”下 


000 1100 e2 
1100001 ; 一 一 ooinN 
000 1000 0000. if 
100 0001 @* 000 01 el | N 
010 0000 “5 


图 10-23 语法 树 节点 上 的 gen 和 kill 集合 


将 串联 语句 的 数据 流 方 程 应 用 到 证 节点 的 父 节点 上 ， 即 可 得 到 该 节点 的 kill 集合 : 
0000000 U (1100001 —0000011) = 1100000 


简 而 言 之 ， 条 件 语句 什么 也 没有 注销 ， 被 语句 ds 注销 的 d; 是 由 条 件 语句 产生 的 ， 所 以 只 有 i 
和 4d; 在 证 节点 的 父 节点 的 kill RAH. 

现在 ， 我 们 可 以 从 分 析 树 的 顶端 开始 计算 in 和 out。 我 们 假设 语法 树 根 节点 的 in 集合 是 
空 的 。 从 而 根 节点 的 左 儿 子 的 out 是 那个 节点 的 gen 集合 ， 即 111 0000。 这 也 是 do 节点 上 in 
集合 的 值 。 从 图 10-21 中 与 do 产生 式 相 关联 的 数据 流 方程 可 以 看 出 ，do 循环 内 语句 的 in 集合 
是 通过 对 do 节点 上 的 in 集合 111 0000 和 该 语句 上 的 gen 集合 000 1111 取 并 获得 的 。 该 并 集 为 
111 1111， 因 此 所 有 定义 都 可 以 到 达 循 环 体 的 开始 。 但 是 ， 刚 好 在 定义 ds 前 面 的 点 in 集合 是 
011 1110， 这 是 因为 定义 d 注销 了 di 和 d;。 余 下 的 in 和 out 计算 留 作 练习 。 口 
10.5.8 局 部 到 达 定 义 

通过 只 保存 特定 点 的 信息 而 在 需要 时 重新 计算 中 间 点 的 信息 ， 我 们 可 以 用 时 间 来 换取 存储 
数据 流 信息 的 空间 。 全 局 流 分 析 通 常 以 基本 块 为 单位 ， 这 样 可 以 将 注意 力 集中 在 基本 块 的 开始 


点 。 由 于 通常 存在 比 基 本 块 更 多 的 点 ， 所 以 将 精力 集中 在 基本 块 上 将 是 很 大 的 节约 。 需 要 时 ， 
从 基本 块 开 始点 的 到 达 定 义 可 以 计算 出 基本 块 中 每 个 点 的 到 达 定义 。 


D 
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更 详细 地 ， 考 虑 基本 块 B 中 的 赋值 语句 序列 Si; S23 …; 5S,。 我 们 将 B 的 开始 记 做 点 po， 
语句 Si 和 Siri 之 间 的 点 记 做 Pi» 基本 块 的 末尾 记 做 点 DPn o 从 Si 开始 考虑 语句 Si; S23 "s S; > 
并 应 用 图 10-21 中 串联 语句 的 数据 流 方程 ， 我 们 可 以 从 in[B] 获得 到 达 点 pj 的 定义 。 初 始 时 ， 邻 
D = in[8]。 当 考虑 $ 的 时 候 ， 我 们 从 D 中 删除 被 $ 注销 的 定义 ， 而 加 入 由 5; 产 生 的 定义 。 最 
a, DAANA pj 的 定义 组 成 。 

10.5.9 引用 -定义 链 

将 到 达 定 义 信 息 存 为 “引用 -定义 链 ” 或 “ud 链 ” 是 非常 合适 的 ， 它 是 一 个 列表 ， 对 于 变 
量 的 每 一 次 引用 ， 到 达 该 引用 的 所 有 定义 都 在 该 列表 中 。 如 果 块 B 中 变量 a 的 引用 之 前 没有 
任何 a 的 明确 定义 ， 那么 a 的 这 次 引用 的 ud 链 为 imfB] 中 a 的 定义 的 集合 。 如 果 B 中 在 a 的 
这 次 引用 之 前 存在 a 的 明确 引用 ， 那么 只 有 a 的 最 后 一 次 定义 会 在 ud 链 中 ， 而 in[B] 不 能 放 
在 ud 链 中 。 另 外 ， 如 果 存 在 a 的 含糊 定义 ， 那么 所 有 那些 在 该 定义 和 a 的 这 次 引用 之 间 没 有 
a 的 明确 定义 的 定义 都 将 被 放 在 a 的 这 次 引用 的 ud 链 中 。 

10.5.10 计算 顺序 

第 5 章 我 们 讨论 了 在 属性 计算 期 间 预 留 空间 的 技术 ， 使 用 图 10-21 中 那样 的 规范 说 明 ， 这 些 
技术 也 可 以 应 用 到 数据 流 信息 的 计算 中 。 特 别 地 ， 对 gen, kill, in 和 out 集合 的 计算 顺序 只 有 
一 种 约束 ， 那 就 是 这 些 集合 之 间 的 依赖 关系 。 选 定 了 一 种 计算 顺序 以 后 ， 如 果 某 个 集合 的 所 有 
引用 都 已 完成 ， 我 们 就 可 以 释放 该 集合 的 空间 。 

本 节 的 数据 流 方程 和 第 5 章 中 属性 的 语义 规则 在 一 个 方面 有 所 不 同 ， 属 性 间 的 循环 依赖 在 
第 5 章 是 不 允许 的 ， 但 是 我 们 已 经 看 到 数据 流 方 程 中 可 能 存在 循环 依赖 。 例 如 ， 式 (10-8) 中 的 
in[S] 和 out[S1] 就 互相 依赖 。 对 于 到 达 定 义 问 题 ， 我 们 可 以 重 写 数据 流 方程 以 删除 循环 ( 试 比 
较 一 下 式 (10-8) 与 图 10-21 中 没有 循环 的 方程 )。 一 旦 得 到 一 个 没有 循环 的 规范 说 明 ， 第 5 章 的 技 
术 即 可 用 来 求 数 据 流 方程 的 高 效 解 。 

10.5.11 一 般 控 制 流 

数据 流 分 析 必 须要 考虑 所 有 的 控制 路 径 。 如 果 从 语法 上 可 以 直接 看 出 控制 路 径 是 什么 ， 则 
可 按 语 法 制导 的 方式 建立 和 求解 数据 流 方程 ， 正 如 本 节 所 讨论 的 一 样 。 如 果 程 序 可 以 包含 goto 
语句 或 更 严格 的 break 和 continue 语句 ， 则 必须 修改 我 们 所 采用 的 方法 以 处 理 实际 的 控制 路 径 。 

有 好 几 种 方法 可 以 被 采用 。 下 一 节 介 绍 的 迭代 法 适用 于 任意 的 流 图 。 因 为 存在 break 和 
continue 语句 时 的 流 图 是 可 约 的 ， 所 以 使 用 10.10 节 将 要 讨论 的 基于 区 间 的 方法 可 以 系统 地 处 理 
这 样 的 结构 。 

但 是 ， 人 允许 程序 含有 break 和 continue 语句 
时 不 必 放 弃 语 法 制导 法 。 在 结束 这 一 节 之 前 ， 我 
们 只 考虑 一 个 介绍 如 何 支持 break 语句 的 实例 ， 


而 把 这 些 思想 的 详细 介绍 留 到 10.10 节 。 : = nae 
$110.14 10-244 do-while 循环 中 的 if e3 then 

break 语句 和 跳 转 到 循环 末尾 的 转移 语句 等 价 。 else begin 

那么 我 们 将 如 何 定义 如 下 语句 的 gen RAW? i := u3; 


break 
end 
while e2 


因为 ds 是 沿 这 条 语句 开始 到 结束 的 控制 路 径 所 图 10-24 含有 一 个 break 语句 的 程序 


if e3 then a := u2 
else begin i := u3; break end 
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产生 的 惟一 定义 ， 所 以 我 们 将 gen 定义 为 {de}， 其 中 de 是 定义 a := u2。 处 理 整 个 do-while 循 
环 时 ， 会 考虑 定义 由 ， 即 研 := u3。 

当 我 们 处 理 循 环 体 中 的 语句 时 ， 有 一 种 方法 允许 我 们 避免 break 语句 所 引起 的 跳 转 : 如 图 
10-25 所 示 ， 我 们 取 break 语句 的 gen 和 kill 集合 分 别 为 空 集 和 U〈 所 有 定义 的 全 集 )。 图 10-25 
中 剩 下 的 gen 和 kill 集合 是 用 图 10-21 的 数据 流 方程 所 确定 的 ， 图 中 ，gen 集合 显示 在 kill 集合 
ZE. WA sS 和 5, 代表 赋值 语句 序列 。do 节点 上 的 gen 和 kill 集合 留待 确定 。 

以 break 结尾 的 任何 语句 序列 的 结束 点 都 是 不 可 到 达 的 ， 所 以 取 语 句 序列 的 gen BO, kill 
RA U 是 没有 害处 的 ;结果 仍然 是 in 和 ou 的 保守 估计 。 类 似 地 ， 计 语句 的 结束 点 只 能 通过 then 
部 分 到 达 ， 而 且 图 10-25 中 这 节点 上 的 gen 和 Xi 集合 也 确实 和 其 第 二 个 子 节点 的 相应 集合 相同 。 


aaa -一 人 


S 
{da ds, de d} °! do 


{ds, ds, de} ae NS 
Bete iO ”~ 
fda, ds} {del ~ i 


S 
{dis dz, d} ™? ee 1、 
{do} ~、 
1 d ~ 
° {d3} 6 Qr~s ; 
U'n. 
idn) -一 人 
{d,. da} dy y break 


图 10-25 break 语句 对 gen 和 kill 集合 的 影响 


do 节点 上 的 gen 和 kill 集合 必须 考虑 do 语句 从 开始 到 结尾 的 所 有 路 径 ， 所 以 它们 受到 
break 语句 的 影响 。 现 在 让 我 们 来 计算 两 个 集合 G 和 六， 开始 当 我 们 遍历 从 do 节点 到 break 节 
点 的 虚线 路 径 时 ， 它 们 都 是 空 集 。 在 直觉 上 ，G 和 天 表示 从 循环 体 开 始 到 break 语句 的 控制 流 
所 产生 和 注销 的 定义 odo-while 语句 的 gen 集合 可 以 通过 对 G 和 循环 体 的 gen 集 求 并 集 来 确定 ， 
因为 控制 要 到 达 do 的 末尾 ， 不 是 从 break 语句 就 是 通过 了 循环 体 。 出 于 同样 的 原因 ，do 的 
kill 集合 是 通过 对 KK 和 循环 体 的 kill 集 求 交集 来 确定 的 。 

就 在 我 们 到 达 让 节点 之 前 ,我 们 有 G = genls] = {di, ds}, K= kills} = {d, do, d}o 在 
if 节点 上 ， 我 们 对 如 下 情况 感 兴趣 ， 当 控制 流 到 了 break 语句 时 ， 条 件 语句 的 then 部 分 对 G 
和 不 产生 影响 。 沿 虚线 路 径 的 下 一 个 节点 是 语句 序列 节点 ， 所 以 我 们 计算 G 和 的 新 值 。 
将 语句 序列 节点 (标记 为 d 的 节点 ) 的 左 儿 子 表示 的 语句 记 做 5;， 我 们 使 用 下 式 计 算 GM K: 

G := gen{S3}) U (G — Kilt$3) 

K := kill{S3] U (K — gen{S3}) 


于 是 ， 到 达 break 语句 时 G M K RENAE (ds, dyd, dr, dabo 口 
10.6 数据 流 方程 的 迭代 解 
上 一 节 的 方法 既 简单 又 有 效 ， 但 是 对 于 像 Fortran 或 Pascal 等 允许 任意 流 图 的 语言 来 说 ， 


它 就 不 能 满足 需要 了 。10.10 节 将 讨论 “区 间 分 析 ” 法 ， 在 严重 损害 概念 复杂 性 的 前 提 下 ， 这 
是 一 种 有 利于 用 语法 制导 方法 对 一 般 流 图 进行 数据 流 分 析 的 方法 。 
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在 此 ， 我 们 要 讨论 另外 一 种 解决 数据 流 问 题 的 重要 方法 。 我 们 首先 建立 流 图 ， 然 后 同时 计 
算 每 个 节点 的 in 和 ou 集合， 而 不 是 用 分 析 树 来 驱动 in 和 ou 集合 的 计算 。 讨 论 这 种 新 方法 
时 ， 我 们 还 要 利用 该 机 会 向 读者 介绍 一 些 不 同 的 数据 流 分 析 问 题 ， 给 出 它们 的 一 些 应 用 ， 并 指 
出 这 些 问 题 的 不 同 之 处 。 

有 许多 数据 流 问 题 的 方程 ， 它 们 “产生 ”和 “注销 ”信息 的 形式 是 类 似 的 。 但 是 ， 有 两 种 
主要 的 方法 对 应 的 方程 在 细节 上 却 有 所 不 同 。 

1. 上 一 节 到 达 定 义 的 方程 是 前 向 方程 ， 意 即 out 集合 是 根据 in 集合 计算 出 来 的 。 我 们 还 会 
看 到 数据 流 问题 是 后 向 的 ， 即 in 集合 是 从 out 集合 计算 出 来 的 。 

2. 当 有 多 条 边 进 入 块 BA, BA B 的 开始 点 的 定义 是 沿 每 一 条 边 到 达 的 定义 的 并 ， 因 此 
我 们 称 该 并 操作 是 聚合 操作 ( confiuence operator), FR, 我们 会 考虑 像 全 局 可 用 表达 式 这 样 
的 问题 ， 其 中 交 操 作 是 聚合 操作 ， 因 为 只 有 当 表 达 式 在 B 的 每 一 个 前 继 的 末尾 都 是 可 用 的 ， 它 
在 8 的 开始 才 是 可 用 的 。 在 10.11 节 ， 我们 将 看 到 豪 合 操作 的 其 他 例子 。 

在 本 节 中 ， 前 向 和 后 向 方程 的 例子 我 们 都 会 看 到 ， 它 们 依次 将 并 和 交 作 为 聚合 操作 符 。 
10.6.1 到 达 定 义 的 迭代 算法 

同上 一 节 一 样 ， 我 们 可 以 为 每 个 基本 块 刀 定义 out[B], gen[B], kill[B] 和 in[81， 注 意 ， 每 
个 块 B 可 以 看 作 是 一 个 或 多 个 赋值 语句 的 串联 。 假 设 已 经 计算 出 了 每 一 个 块 的 gen 和 kill, 4 
式 (10-9) 所 示 ， 我 们 可 以 创建 两 组 和 in 与 ou 有 关 的 方程 。 第 一 组 方程 是 基于 这 样 的 观察 得 来 
的 ， 即 inib] 是 从 B 的 所 有 前 驱 到 达 的 定义 的 并 。 第 二 组 方程 是 我 们 声称 对 所 有 语句 都 成 立 的 
通用 规则 (10-5) 的 特例 。 这 两 组 方程 为 : 


iniB}= U ouwlP]l 
BHWP (10-9) 


out[lB] = gen|B) U (in[B] — kill[B) 
如 果 流 图 有 n 个 基本 块 ， 我 们 将 从 (10-9) 得 到 2n 个 方程 。 通 过 循环 计算 in 和 out 集合 即 可 对 这 
2n 个 方程 进行 求解 ， 就 像 上 一 节 求 解 do-while 语句 的 数据 流 方程 (10-6) 和 (10-5) 那 样 。 上 一 节 中 ， 
开始 时 我 们 把 空 集 作为 所 有 ou 集合 的 起 始 估计 。 从 (10-9) 可 以 看 出 ， 作 为 out 集合 的 并 , in R 
SE out 集合 为 空 时 亦 为 空 ， 因 此 ， 这 里 我 们 也 将 以 空 的 in 集合 开始 。 虽 然 我 们 可 以 认同 方程 
(10-99 和 (10-7) 只 需要 一 次 迁 代 ， 但 如 果 它 们 是 更 复杂 的 方程 ， 我 们 就 不 能 预先 限定 迁 代 的 次 数 。 


算法 10.2 到 达 定 义 。 

输入 : 已 经 算出 每 个 块 互 的 kiU[B] 和 gen[B] 的 流 图 。 

输出 : 每 个 块 B 的 in[B] 和 out[8]。 

方法 : 我 们 使 用 迭代 法 ， 对 所 有 的 B， 从 “估计 ”in[B] = © 开始 ， 然 后 逐步 收敛 到 in 和 
out 的 期 望 值 。 因 为 我 们 必须 重复 帮 代 一 直到 inoun (converge), 我 们 利用 一 个 布尔 变量 
change 来 记录 在 对 块 的 每 一 遍 扫 措 中 in 是 否 发 生 了 变化 。 算 法 框架 如 图 10-26 所 示 。 口 


直观 地 ， 只 要 定义 没有 被 注销 ， 算 法 10.2 就 会 将 它们 传播 得 尽 可 能 还， 从 某 种 意义 上 说 ， 
就 是 模拟 程序 所 有 可 能 的 执行 。 文 献 注释 中 包括 一 些 相应 的 参考 书 ， 在 这 些 参 考 书 中 可 以 找到 
该 问题 和 其 他 一 些 数据 流 分 析 问 题 正 确 性 的 形式 化 证 明 。 

我 们 可 以 看 到 ， 算 法 最 终 会 停止 ， 因 为 对 任何 8，out[B8] 都 不 再 变 小 ， 一 旦 有 定义 增加 ， 
它 将 永远 停留 在 那里 (该 事实 的 证 明 留 为 练习 )。 因 为 所 有 定义 的 集合 是 有 穷 的 ， 所 以 最 终 一 
定 会 有 一 次 while 循环 ， 使 得 在 第 (9) 行 中 对 每 个 B 都 有 oldout = out[B8]， 于 是 ，change 将 保持 
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为 false ， 而 算法 也 会 停止 。 我 们 可 以 安全 地 终止 算法 ， 因 为 如 果 out 没有 发 生变 化 ,在 下 一 次 


循环 中 in 也 不 会 发 生变 化 。 并 且 如 果 in 不 发 生变 化 ，out 也 不 会 发 生变 化 ， 所 以 在 随后 的 每 
次 循环 中 ， 不 可 能 再 发 生变 化 。 


f+ 初始 化 ou， 假设 对 所 有 的 B，i [iB] = */ 
for 每 个 块 8 do out [B] := gen [B]; 
change := true; A* 使 得 while 循 环 继 续 下 去 */ 
while change do begin 
change := false; 
for 每 个 块 B do begin 


in[B]:= U out{P); 
Be RRP 
oldout := out|B |; 
out |B} := gen{B] U (inlB] — KllB 1D): 
if oui [B] + oldout then change := true 
end 
end 





图 10.26 计算 in 和 out 的 算法 


可 以 证 明 while 循环 次 数 的 上 界 是 流 图 中 节点 的 个 数 。 直 观 地 ， 其 原因 是 如 果 一 个 定义 到 
达 了 某 一 点 ， 它 可 以 沿 着 一 条 无 环 路 的 路 径 这 样 做 ， 而 流 图 中 节点 的 数量 是 无 环 路 路 径 上 节点 
数量 的 上 界 。 每 次 执行 while 循环 ， 该 定义 沿 着 这 条 路 径 至 少 前 进 一 个 节点 。 

事实 上 ， 如 果 我 们 在 第 (5) 行 的 for 循环 中 适当 地 安排 块 的 顺序 ， 有 充分 的 证 据 表明 在 实际 
程序 上 迭代 的 平均 数 将 小 于 $( 见 10.10 节 )。 因 为 这 些 集合 可 以 用 位 向 量 表 示 ， 而 且 这 些 集 合 
上 的 操作 可 以 用 位 向 量 上 的 逻辑 操作 来 实现 ， 所 以 ,算法 10.2 的 效率 实际 上 非常 高 。 


10.15 ”图 10-27 中 的 流 图 来 自 上 一 节 图 10-22 中 的 程序 ， 我 们 将 把 算法 10.2 应 用 于 该 流 图 
以 便 对 这 两 节 的 方法 进行 比较 。 






gen[B,] {d,,d,d3} 


B, KiNIB\) = {d4, d5, de, dy} 
gen [Ba] = {d4, d5} 
KNB) = {di, d}, d3} 
gen(B;) = {de} 
kill(B,) = {d3} 
_ gen{By) = {d>} 
kill{B4) = {d,,d4} 


图 10-27 用 于 说 明 到 达 定 义 的 流 图 
我 们 只 对 图 10-27 中 定义 i, j 的 定义 da, d, ©, di 以 及 a 感 兴 趣 。 同 上 一 节 一 样 ， 我 
们 将 用 位 向 量 来 表示 定义 的 集合 ， 其 中 ， 从 左边 数 起 位 ;表示 定义 d; 。 
图 10-26 中 第 (1) 行 的 循环 对 每 个 块 B 进 行 初始 化 ， 即 out[B] = gen[B]， 图 10-28 的 表 中 给 出 
了 这 些 out[8] 的 初始 值 。 虽 然 没 有 计算 或 使 用 各 个 in[B8] 的 初始 值 ( 名 )， 但 为 完整 起 见 也 在 表 
中 给 了 出 来 。 假 设 第 (5) 行 的 for 循环 按照 B= B,, B, Bs, B, 的 顺序 执行 。 当 B = BIN, AK 
初始 节点 没有 前 驱 节点 ， 所 以 in[B1] 仍然 为 空 集 ， 用 000 0000 表 示 ; AR, oub) 还 是 等 于 
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gen[B81]。 该 值 和 第 (7) 行 计算 出 来 的 oldout 没有 区 别 ， 所 以 我 们 还 是 没有 将 change BH true, 




















初始 时 第 1 遍 


Cae | ae | wey | ome | 
000 0000 


111 0000 | 000 0000 | 111 0000 | 000 0000 
000 1100 | itt O011t | 001 1110 | 111 1111 
000 0010 | OOI 1110 | 000 1110 | 001 1110 
000 0001 | OOI 1110 | 001 O111 | OOI 1110 


图 10-28 in Mout 的 计算 
然后 我 们 考虑 B =B, HWAT: 
in[B2] = out {Bi}] U out(B3} U our[B 4) 
= 1110000 + 0000010 + 0000001 = 1110011 
out(B,) = gen[B2] U (in[B2) — Kill(B2)) 
= 0001100 + (1110011 — 1100001) = 001 1110 


第 2 遍 





out [B] 


111 0000 
001 1110 
000 1110 
001 0111 







计算 结果 如 图 10-28 所 示 。 在 第 1 遍 的 末尾 ，oui[B4] = 001 0111， 反 映 了 这 样 的 事实 ， 即 a, 
是 由 Bs 产生 的 ， 而 ds, ds 和 ds 到 达 Bs, HEE B4 中 没有 被 注销 。 从 第 2 遍 开始 ， 任 何 out 集 
合 都 不 再 有 变化 ， 所 以 算法 终止 。 口 


10.6.2 可 用 表达 式 

如 果 从 初始 节点 到 p 的 每 一 条 路 径 ( 不必 是 无 环 路 的 ) 均 计 算 x y, HEES p 之 前 
的 最 后 一 次 这 样 的 计算 之 后 ， 再 没有 对 x y 的 赋值 ， 则 表达 式 x + y 在 p 点 是 可 用 的 。 对 
于 可 用 表达 式 ， 如 果 一 个 块 为 x 或 y 赋值 (或 可 能 赋值 )， 并 且 后 来 没有 重新 计算 x+y, M 
我 们 称 该 块 注 销 了 表达 式 x + y。 如 果 一 个 块 明确 地 计算 了 x + y， 并 且 后 来 没有 重新 定义 x 
或 y， 则 该 块 产生 表达 式 x + yo 

注意 ,可 用 表达 式 的 “注销 ”或 者 “产生 ” 同 到 达 定 义 中 的 “注销 ”或 者 “产生 ”的 概念 
并 不 完全 相同 。 不 过 ， 这 些 “ 注 销 ” 和 “产生 ”的 概念 和 到 达 定 义 中 的 遵守 相同 的 法 则 。 倘 若 
我 们 修改 一 下 图 10-21a 中 针对 简单 赋值 语句 的 规则 ， 我 们 就 可 以 完全 按 10.5 节 那样 计算 它们 。 

可 用 表达 式 信息 的 主要 用 途 是 检测 公共 子 表 达 式 。 例 如 ， 在 图 10-29 中 ， 如 果 4*i 在 B; 的 
入 口 处 是 可 用 的 ， 则 块 B 中 的 表达 式 4*i 就 是 公共 子 表达 式 。 如 果 i 在 Bs 中 没有 被 赋予 新 值 
或 者 像 图 10-29b 中 那样 ， 在 B: 中 ， 对 i 赋值 后 又 重新 计算 了 4*i， 则 4*i 将 是 可 用 的 。 





a) b) 
图 10-29 穿越 基本 块 的 潜在 公共 子 表 达 式 


从 一 个 抉 的 开始 到 结尾 ， 我 们 可 以 很 容易 地 计算 出 块 中 每 个 点 所 产生 的 表达 式 集合 。 假 设 
在 该 块 前 面 的 点 没有 可 用 表达 式 。 如 果 在 点 p RARR A 是 可 用 的 ,而 且 q 是 p 后 面 的 点 ， 
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它们 之 间 还 有 语句 x := y+z， 那 么 我 们 可 以 用 下 面 的 两 个 步骤 来 形成 4 点 的 可 用 表达 式 集 : 
1. 将 表达 式 y+z 添加 到 有 A 中 。 
2. 从 4 中 删除 任何 含有 x 的 表达 式 。 
注意 ， 这 些 步骤 必须 按照 正确 的 顺序 执行 ， 因 为 x 可 能 与 y z 相同 。 到 达 块 的 末尾 之 后 ，4 
将 是 该 块 所 产生 的 表达 式 集 。 该 块 所 注销 的 表达 式 集 是 所 有 这 样 的 表达 式 y+z， 其 中 y 或 = 
是 在 该 块 中 定义 的 , 但 y+z 不 是 该 块 所 产生 的 。 


例 10.16 考虑 图 10-30 中 的 4 条 语句 。 在 第 一 条 语句 之 后 ，b+c 是 可 用 的 。 第 二 条 之 后 a-a 
成 为 可 用 的 , 但 是 b + c 不 再 可 用 ， 因 为 b 已 经 被 重新 


定义 。 第 三 条 语句 还 是 没有 将 D+ c 变 为 可 用 表达 式 ， ”语句 ”可 用 表达 式 

因为 < 的 值 立刻 又 被 改变 了 。 在 最 后 一 个 语 名 之后， ee 没有 

a - d 不 再 是 可 用 的 ， 因 为 a 已 经 发 生 了 变化 。 因 此 ， a ispre sp bro 

没有 语句 被 产生 ， 而 且 所 有 包含 a，b，c Ra 的 语句 b := a-d f 

都 被 注销 了 。 g ci ge wees 只 有 a-d 
FRAT AL A FABIA TE BOTT PR SR 只 有 a-d 


假设 0 是 程序 中 出 现在 一 个 或 多 个 语句 右面 的 所 有 表达 “ww 
式 的 全 集 。 对 每 个 块 8， 令 in (BYE U 中 这 样 的 表达 式 。 一 一 一 一 一 一 一 一 一 
之 集 ， 它 们 恰好 在 B 的 开始 点 之 前 是 可 用 的 ， 令 out [B] 图 10-30 可 用 表达 式 的 计算 

是 的 结束 点 之 后 的 这 样 的 集合 。 将 。 gen[B] 定 义 为 五 所 产生 的 表达 式 ， 且 e_i1 [8] 为 上 中 
被 8 注销 的 表达 式 集合 。 注 意 ，in，ouf，e_gen 和 ekil 均 可 用 位 向 量 表示 。 下 面 的 方程 将 未 
知 的 in 和 out， 以 及 已 知 的 e_gen 和 e_kill 联系 在 一 起 。 


out(B] = e_gen[B] U (in{[B] — e_kill{B )) 


in[B] = Q out[P), BARR 
ern (10-10) 


in[81] = Ø, HP 81 是 初始 块 


方程 (10-10) 和 到 达 定 义 的 方程 (10-9) 看 起 来 几乎 是 相同 的 。 第 一 个 不 同 点 是 初始 节点 的 in 
是 作为 特殊 情况 处 理 的 。 可 以 证 明 这 一 点 是 正确 的 ， 因 为 如 果 程 序 恰 好 从 初始 节点 开始 的 话 ， 
则 没有 表达 式 是 可 用 的 ， 即 使 某 些 表达 式 可 能 在 沿 程序 中 其 他 地 方 到 初始 节点 的 所 有 路 径 上 都 
是 可 用 的 。 如 果 我 们 不 强制 使 in[B1] 为 空 的 话 ， 我 们 可 能 错误 地 推导 出 某 些 表达 式 在 程序 开始 
之 前 就 是 可 用 的 。 

第 二 个 不 同 点 ， 也 是 更 重要 的 不 同 点 ， 在 于 聚合 操作 符 不 是 并 而 是 交 。 该 操作 是 正确 的 ， 
因为 只 有 当 表 达 式 在 一 个 块 的 所 有 前 驱 的 末 屁 都 是 可 用 的 , 它 在 该 块 的 开始 才 是 可 用 的 。 相 反 ， 
一 个 定义 只 要 到 达 某 个 块 的 一 个 或 多 个 前 驱 的 末尾 ， 它 就 到 达 该 块 的 开始 。 

使 用 而 不 是 UU 使 得 方程 (10-10) 和 (10-9) 有 所 不 同 。 因 为 哪 一 组 方程 都 没有 惟一 解 ， 所 以 
对 于 (10-9) 它 是 对 应 “到 达 ” 定 义 的 最 小 解 ， 开 始 我 们 假设 没有 任何 定义 可 以 到 达 任 何 地 方 ， 
然后 逐步 增 大 解 ， 最 后 获得 该 最 小 解 。 这 种 方法 中 ， 除 非 可 以 找到 一 条 将 d 传播 到 p 的 实际 路 
径 ， 否 则 我 们 不 假设 定义 d 能 够 到 达 点 p。 相 反 ， 对 于 方程 (10-10)， 我 们 希望 得 到 一 个 最 大 可 
能 解 ， 所 以 我 们 从 一 个 非常 大 的 近似 解 开始 并 逐步 减 小 该 近似 解 。 

开始 我 们 假设 “任何 表达 式 ， 即 集合 UV 在 任何 地 方 都 是 可 用 的 "， 然 后 我 们 删除 这 样 的 表 
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达 式 ， 即 我 们 能 够 找到 一 条 路 经 使 得 沿 这 条 路 径 该 表达 式 是 不 可 用 的 ， 这 样 ， 我 们 可 以 得 到 一 
个 确实 可 用 的 表达 式 集合 ， 但 这 一 点 并 不 是 显然 的 。 在 可 用 表达 式 的 情况 下 ,产生 一 个 精确 的 
可 用 表达 式 集合 的 子 集 是 比较 稳妥 的 ， 我 们 也 是 这 样 做 的 。 子 集 之 所 以 稳妥 的 依据 是 ， 这 些 信 
息 的 用 途 是 用 前 面 算 出 的 值 来 替换 可 用 表达 式 的 计算 ( 见 下 一 节 的 算法 10.5 )， 而 不 知道 一 个 
表达 式 是 可 用 的 只 是 限制 了 我 们 对 代码 进行 变换 。 


例 10.17 ”我 们 将 集中 讨论 图 10-31 中 的 单个 块 B,， 来 说 明 in[B3] 的 初始 近似 值 对 out[B2] 
的 影响 。 令 G 和 天 分 别 为 gen[B2] 和 Kill[B2] 的 缩写 。 块 B 的 数据 流 方程 为 : 
in [B2] = out[B,] N out iB3] 
out [B2] = G U (in[B,] — K) 
令 了 和 0 分 别 表示 in[B2] 和 out[Bz] 的 第 j 次 近 
似 值 ， 则 这 些 方程 可 以 重 写 为 图 10-31 中 的 递归 
形式 。 该 图 还 说 明 ,， 从 = 好 开始 ， 我 们 将 得 
到 O'=0?=G, MA P= U 开始 ， 我 们 将 得 到 
一 个 更 大 的 集合 0: 。 在 每 一 种 情况 下 ， 恰 好 都 





o*'=GUW~K) 
Dt! = out(B,) 077! 





有 oulBleF 0? ， 因 为 两 次 迭代 都 收 伍 在 显 GIT EIU 
示 的 点 上 。 I! = ow \B,| NG L = out{B,) 一 大 
EWE, MP =u 开始 ,利用 2 =G 0? = G U (oulB1] ~ K) 


图 10-31 Krin 初始 化 为 空 集 限制 太 严 
out(B,] = G U (ou [B] — K) 
所 得 到 的 解 是 令 人 满意 的 ， 因 为 它 正确 地 反映 出 了 out[B11 中 没有 被 B; 注销 的 表达 式 在 B 的 
末尾 是 可 用 的 ， 就 如 同 B, 所 产生 的 表达 式 一 样 。 口 


算法 10.3 可 用 表达 式 。 

A. 流 图 G， 其 中 每 个 块 B 的 e_kill[B] 和 e_gen[B] 都 已 算出 。 初 始 块 是 Bi。 

输出 ; 每 个 块 的 in[B] 集合 。 

方法 :执行 图 10-32 中 的 算法 ， 各 个 步骤 的 解释 同 图 10-26 中 的 类 似 。 口 


in{B ,} := Ø; 
out[B81] := e_gen[B,), /初始 节点 下 的 in 和 out 从 不 改变 #/ 
for B + B, do out(B) := U ~ ekill[B), /# 初 始 估 计 过 大 «7 
change := true; 
while change do begin 

change := false, 

for B + B, do begin 


iniBj := MQ out[P); 
Bey REP 


oldout := out[B}; 
out{B] := egenlB| U (in[B] — e_kill(B }); 
if out(B | + oldout then change := true 
end 
end 





图 10-32 可 用 表达 式 计 算 
10.6.3 活跃 变 题 分析 
许多 代码 改进 变换 依赖 于 按照 与 程序 中 控制 流 相 反 的 方向 计算 出 来 的 信息 。 现 在 我 们 将 考 
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虚 其 中 的 某 些 变换 。 在 活跃 变量 分 析 中 ， 我 们 希望 知道 对 于 变量 x 和 点 p， 在 流 图 中 沿 从 p H 
始 的 某 条 路 径 是 否 可 以 引用 x 在 p 点 的 值 。 如 果 可 以 ， 则 我 们 说 x Ep 点 是 活跃 的 ， 否则，x 
在 p 点 就 是 无 用 的 。 

正如 我 们 在 9.7 节 所 看 到 的 ， 活 路 变量 信息 在 目标 代码 生成 时 具有 重要 的 作用 。 当 我 们 在 
寄存 器 中 计算 一 个 值 之 后 ， 并 且 假 设 在 某 个 块 中 还 要 引用 它 ， 如 果 它 在 该 块 的 末尾 是 元 用 的 ， 
则 不 需要 存储 该 值 。 如 果 所 有 的 寄存 器 都 是 满 的 ， 而 且 我 们 需要 另外 的 寄存 器 ， 则 我 们 应 当 使 
用 含有 无 用 值 的 寄存 器 ， 因 为 这 种 寄存 器 中 的 值 不 再 需要 了 。 

我 们 将 in[B) 定义 为 在 紧 靠 B 之 前 的 点 活跃 的 变量 之 集 ， 而 将 out[B] 定义 为 在 紧 跟 B 之 后 
的 点 活跃 的 变量 之 集 。 令 def (BRIA B 中 这 样 的 变量 之 集 : 在 引用 该 变量 之 前 已 明确 地 对 该 变 
量 进 行 了 赋值 ;而 令 use (BIN B 中 这 样 的 变量 之 集 : 在 该 变量 的 任何 定义 之 前 可 能 引用 该 变 
E. 那么 将 def 和 use 与 未 知 的 in 和 out 联系 在 一 起 的 方程 就 是 : 

in{B] = use[B] U (ous{B] — def[B}) 

oulB]= ÙU inis} (10-11) 

8 的 后 继 5 

第 一 组 等 式 表 示 一 个 变量 在 进入 某 个 块 时 是 活路 的， 如 果 它 在 该 块 中 于 定义 前 被 引用 ， 或 
者 它 在 离开 该 块 时 是 活跃 的 而 且 在 该 块 中 没有 被 重新 定义 。 第 二 组 等 式 表示 一 个 变量 在 离开 某 
个 块 时 是 活 牙 的 ， 当 且 仪 当 它 在 进入 该 块 的 某 个 后 继 时 是 活 星 的 。 

应 当 注 意 (10-11) 和 到 达 定 义 方程 (10-9) 之 间 的 关系 。 在 此 ，in 和 out 将 它们 的 作用 进行 了 
交换 ， 而 use 和 def 则 分 别 取代 了 gen 和 kill 。 同 (10-9) 一 样 ，(10-11) 的 解 也 不 必 惟 一 ， 我 们 只 
需要 最 小 解 。 用 来 求 最 小 解 的 算法 本 质 上 是 算法 10.2 的 回 退 。 因 为 检测 in 中 任何 变化 的 机 制 同 
算法 10.2 与 算法 10.3 中 检测 out 变化 的 方法 类 似 ， 所 以 我 们 省 略 了 检查 终止 条 件 的 细节 。 


算法 10.4 活跃 变量 分 析 。 


forj ikB do in [B] := Ø; 


输入 : 已 经 计算 了 每 个 块 def 和 use 的 while 集合 in 发 生变 化 do 
流 图 for 每 个 块 B do begin 
° BI]= U inis] 
输出 : out[B]， 流 图 中 在 每 个 决 B 的 DI T uens 
出 口 活跃 的 变量 之 集 。 in[B) := use[B] U (out[B] — def[B}) 
d 
方法 : WATE- AEF OF ~ 


10.6.4 定义 -引用 链 Hoas HRERS 


有 一 种 事实 上 和 活跃 变量 分 析 方 式 相同 的 计算 ， 即 定义 -引用 链接 ( du 链接 )。 如 果 在 语句 
s 中 需要 一 个 变量 的 右 值 ， 则 称 该 变量 在 语句 s 中 被 引用 。 例 如 ，b 和 c (但 没有 a) 在 语句 
a := b+c 和 a[b] :=c 中 都 被 引用 过 。 定 义 -引用 链接 问题 是 对 某 个 点 p 计算 变量 x 的 引用 s 
的 集合 ， 使 得 从 p 到 s 有 一 条 没有 重新 定义 x 的 路 径 。 

就 像 计算 活路 变量 那样 ， 如 果 我 们 能 够 计算 out [B], BAR B 的 末尾 能 够 到 达 的 引用 之 
集 ， 我 们 就 可 以 通过 扫描 块 B 中 p 后 面 的 那 部 分 来 计算 从 8 中 任意 点 p 到 达 的 定义 。 特 别 地 ， 
如 果 块 中 有 一 个 变量 x 的 定义 ,我 们 就 可 以 确定 该 定义 的 du 链 ， 即 该 定义 所 有 可 能 引用 的 列 
表 。 该 方法 类 似 于 10.5 节 讨论 的 计算 ud 链 的 方法 ， 我 们 把 它 留 给 读者 。 

计算 du 链接 信息 的 方程 看 起 来 完全 像 式 (10-11)， 只 是 替换 了 def 和 use。 用 来 代替 use [B] 
的 是 B 中 向 上 暴露 的 引用 的 集合 ， 即 序 对 (s ，x) 的 集合 ， 其 中 ，s 是 B 中 引用 变量 x 的 语句 ， 
而 且 在 B 中 之 前 没有 出 现 x 的 定义 。 取 代 def [8] 的 也 是 序 对 (s，x) 的 集合 ， 其 中 ,，s 是 引用 x 
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的 语句 ，s 不 在 8 中 , 但 8B 含有 x 的 定义 。 这 些 方程 显然 可 以 利用 类 似 于 算法 10.4 的 方法 求解 ， 
我 们 就 不 进行 进一步 的 讨论 了 。 


10.7 代码 改进 变换 


10.2 节 介绍 的 完成 代码 改进 变换 的 算法 依赖 于 数据 流 信 息 。 在 上 两 节 中 ， 我们 已 经 明白 了 
怎样 收集 这 些 信息 。 在 此 ， 我 们 将 考虑 公共 子 表达 式 删 除 、 复 制 传播 、 循 环 不 变 计算 外 提 和 归 
纳 变量 删除 。 对 于 许多 语言 ， 改 进 循环 的 代码 可 以 使 运行 时 间 得 到 很 大 改进 。 在 编译 器 中 ， 有 
些 变换 可 以 一 起 完成 ， 但 是 我 们 这 里 提出 的 想法 是 基于 单个 变换 的 。 

本 节 强 调 的 是 将 程序 信息 作为 整体 使 用 的 全 局 变换 。 正 如 在 上 两 节 中 所 见 到 的 ， 全 局 数据 
流 分 析 通 常 不 关心 基本 块 中 的 点 ， 因 此 全 局 变换 代 圭 不 了 局 部 变换 ， 两 者 都 必须 实施 。 例 如 ， 
当 执 行 全 局 公共 子 表达 式 删除 时 ， 我 们 上 只 关心 一 个 表达 式 是 否 是 由 基本 块 产生 的 ， 而 不 关心 它 
是 否 在 块 中 被 重新 计算 了 几 次 。 
10.7.1 全 局 公共 子 表达 式 删 除 

上 节 讨 论 的 可 用 表达 式 数 据 流 问题 允许 我 们 判定 位 于 流 图 中 p 点 的 表达 式 是 否 为 公共 子 表 
达 式 。 下 面 的 算法 将 10.2 节 提出 的 删除 公共 子 表 达 式 的 直观 想法 加 以 形式 化 。 

算法 10.5 全 局 公共 子 表达 式 删 除 。 

输入 : 带 有 可 用 表达 式 信息 的 流 图 。 

输出 : 修正 后 的 流 图 。 

方法 ; 对 每 个 形 如 x := yrz KEA s, MR y+z 在 s 所 在 块 的 开始 点 可 用 ， 且 该 块 中 在 
语句 之 前 没有 对 y 或 z 的 定义 ， 则 执行 下 面 的 步骤 : 

1. 为 了 寻找 到 达 * 所 在 块 的 y+z 的 计算 ,我 们 顺 着 流 图 的 边 ， 从 该 块 开始 反 向 搜索 ， 但 不 
穿 过 任何 计算 y+z 的 块 。 在 遇 到 的 每 个 块 中 ， 对 y+z 的 最 后 一 次 计算 是 到 达 s 的 y+z 的 计算 。 

2. 建立 新 变量 u。 . 

3. 把 步骤 1 中 找到 的 每 个 语句 w := y+z 用 如 下 语句 代替 : 


u := yez 
WwW := u 


4. 用 x := u 代替 语句 5。 口 


下 面 是 关于 该 算法 的 一 些 说 明 : 

1. 步骤 1 中 寻找 到 达 s 的 y+z 的 计算 也 可 以 形式 化 为 一 个 数据 流 分 析 问 题 。 但 是 。 为 所 有 
的 表达 式 y+z 和 所 有 的 语句 或 基本 块 求解 这 个 问题 是 没有 意义 的 ， 因 为 这 样 会 收集 到 太 多 无 
关 信 息 。 所 以 我 们 宁可 在 流 图 上 搜索 相关 的 语句 和 表达 式 。 

2. 由 算法 10.5 完 成 的 修改 并 非 都 是 改进 。 我 们 可 能 需要 限制 在 步骤 1 中 发 现 的 到 达 s 的 不 同 


计算 的 个 数 ， 很 可 能 限制 到 1。 不 过 ， 下 面 将 要 讨论 的 复制 传播 在 有 多 个 y+z 的 计算 到 达 s 时 
也 能 获得 益处 。 


3. 算法 10.5 将 会 漏 掉 这 样 的 事实 : a*z 和 cr*z 在 下 面 的 语句 中 具有 相同 的 值 : 


号 ”我 们 仍 用 + 代表 一 般 的 运算 符 。 
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因为 处 理 公共 子 表达 式 的 这 种 简单 方法 只 考虑 宇 面 上 的 表达 式 ， 而 不 考虑 表达 式 所 计算 的 值 。 
Kildall[1973] 提 出 了 一 种 方法 ， 它 可 以 在 一 遍 扫 描 中 找到 这 样 的 等 价 表 达 式 ， 我 们 将 在 10.11 节 
讨论 它 。 但 是 ， 用 算法 10.5 进 行 多 遍 扫 描 也 能 找到 它们 ， 可 以 考虑 重复 算法 直到 没有 新 的 变化 
为 止 。 如 果 a 和 c 是 临时 变量 ,它们 在 块 外 没有 被 引用 ， 那 么 ， 对 临时 变量 做 特殊 处 理 ， 也 
可 以 找到 公共 子 表 达 式 (x+y) *z， 见 下 面 的 例子 。 


例 10.18 ”假定 在 图 10-34a 的 流 图 中 没有 对 数组 a 的 赋值 ， 我 们 可 以 安全 地 认为 a[t2] 和 
a[te] 是 公共 子 表 达 式 。 问 题 是 怎样 删除 这 个 公共 子 表达 式 。 


t, := 4ai 
t; := alt} 
te := 4ai 
t; := alte] 


a) 


(15) := 4ei 
(18) := a[(15)] 









te := (15) 
t; := (18) 





图 10-34 公式 子 表达 式 4*i 的 删除 


图 10-34a 中 的 公共 子 表达 式 4*i 在 图 10-34b 中 已 经 被 删除 。 确 定 alto] 和 altel AA 
子 表达 式 的 一 种 方法 是 用 复制 传播 (下面 将 会 讨论 ) 把 t: 和 te 换 成 u， 这 样 两 个 表达 式 都 变 
成 了 a[ul， 重新 使 用 算法 10.5 即 可 删除 它 。 注 意 ， 图 10-34b 的 两 个 块 中 都 插入 了 相同 的 新 变量 
u， 所 以 局 部 的 复制 传播 足以 把 a [ts] Ml alts) ER alulo 

另 一 种 方法 是 考虑 到 这 样 的 事实 : 临时 变量 是 由 编译 器 插入 的 ， 而 且 只 能 在 它们 出 现 的 块 
中 被 引用 。 通 过 仔细 考察 可 用 表达 式 计算 过 程 中 表达 式 的 表示 方式 ， 我 们 将 获得 这 样 的 事实 
不 同 的 临时 变量 可 能 表示 相同 的 表达 式 。 表 示 表 达 式 集 的 推荐 技术 是 为 每 个 表达 式 编号 ， 然 后 
用 位 向 量 来 表示 ， 其 中 第 ;位 表示 编号 为 的 表达 式 。 可 以 用 5.2 节 的 值 -编号 技术 来 对 表达 式 进 
行 编号 ， 世 便 以 一 种 特殊 的 方式 来 处 理 临时 变量 。 

更 详细 地 ， 假 设 4*i 的 值 为 15。 如 果 我 们 使 用 值 号 码 15 而 不 是 临时 变量 名 to 和 te ME 
kka [t] 和 a [ts] 将 得 到 相同 的 值 号 码 。 又 假设 结果 值 号 码 为 18。 这 样 在 数据 流 分 析 中 位 18 
将 同时 表示 a t: 和 afts] ， 而 且 我 们 可 以 确定 a [te] 是 可 用 的 ， 因 而 可 以 将 其 删除 。 结 果 代 
码 如 图 10-34c 所 示 ， 我 们 使 用 (15) 和 (18) 来 表示 与 带 有 相应 值 号 码 的 表达 式 相 对 应 的 临时 变量 。 
实际 上 ，te 是 没有 用 的 ， 而 且 将 在 局 部 活跃 变量 分 析 过 程 中 被 删除 。 临 时 变量 ty 也 将 不 会 被 计 
算 ， 而 是 将 对 ty 的 引用 换 成 对 (18) 的 引用 。 口 
10.7.2 复制 传播 

前 面 刚 讨论 的 算法 10.5 和 其 他 一 些 算法 ， 如 本 节 将 要 讨论 的 归纳 变量 删除 算法 ， 都 会 引 人 
形 如 x := y 的 复制 语句 。 复 制 也 可 能 是 由 中 间 代 码 生 成 器 直接 产生 的 ， 虽 然 它们 大 多 都 只 包括 
局 部 于 基本 块 的 临时 变量 ， 而 且 可 以 用 9.8 节 讨论 的 dag 构 造 算法 删除 掉 。 如 果 能 找 出 复制 语句 
s: X := y 中 定义 x 的 所 有 引用 点 ， 并 用 y 代替 x， 那 么 就 可 以 删除 该 复制 语句 。 前 提 是 x 的 
每 个 引用 4 必须 满足 下 列 条 件 : 

1. 语句 s 必须 是 到 达 u 的 x 的 惟一 定义 ( 即 引用 的 ud 链 只 包含 s)。 

2. ÆA s B) 的 每 条 路 径 ， 包 括 穿 过 u 若干 次 (但 没有 第 二 次 穿 过 ，) 的 路 径 上 ， 没 有 对 
y 的 赋值 。 
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条 件 1 可 以 用 ud 链 信息 来 检查 , 但 如 何 检查 条 件 2 呢 ? 我 们 将 建立 一 个 新 的 数据 流 分 析 问 题 ， 
其 中 in[B] 是 复制 语句 s: x := y 的 集合 ， 就 是 从 初始 节点 到 块 B ( 包含 语句 s) 开始 点 的 每 条 路 
径 上 ， 以 及 语句 s 的 最 后 一 次 出 现 之 后 ， 都 没有 对 y 的 赋值 。 相 应 地 可 以 定义 集合 oxut[B1， 只 
不 过 它 是 关于 块 B 的 结束 点 的 。 如 果 复 制 语句 s: x := y 出 现在 块 BH, AB 中 后 来 没有 对 
y 进行 赋值 ， 则 称 复制 语句 s 是 在 块 B 中 产生 的 。 如 果 x 或 y 在 块 B 中 后 来 被 赋值 ， 并 且 s 
不 在 块 B 中 ， 则 称 ;: x :=y 在 块 B 中 被 注销 。 对 x 的 赋值 注销 x := y 的 概念 类 似 于 到 达 定 义 ， 
但 是 对 y WASTER x := y 是 该 问题 所 特有 的 。 请 注意 不 同 的 赋值 x := y 会 互相 注销 这 个 
事实 的 重要 结果 ，in[B] 中 只 能 含有 一 个 x 在 左边 的 复制 语句 。 

令 U 为 程序 中 所 有 复制 语句 的 全 集 ， 注 意 ， 不 同位 置 的 语句 x := y 在 U 中 是 不 相同 的 。 
将 c_gen[B] 定义 为 块 B 所 产生 的 所 有 复制 语句 的 集合 ，c_kill[8] 为 U 中 所 有 被 B 注销 的 复制 语 
句 的 集合 。 那 么 下 列 方程 将 这 些 定义 联系 在 一 起 : 

out|B) = c_genlB] U (inlB} — cKilltB)) 


n(BY= N tlP} ,8 不 是 初始 
in{B | pomp } 初始 块 | (10-12) 


ilB = OD, HB, 是 初始 块 


如 果 c_kill 和 c_gen 分 别 由 e_kill 和 e_gen 代 埠 的话， 那么 方程 (10-12) 和 方程 (10-10) 就 是 
一 样 的 。 所 以 ， 式 (10-12) 可 用 算法 10.3 求 解 ， 因 而 在 此 不 再 讨论 。 不 过 ， 我 们 将 给 出 一 个 例子 
来 揭示 复制 传播 的 某 些 细微 差别 。 


例 10.19 考虑 图 10-35 的 流 图 。 这 里 ，c_gen [Bi] = {x :=y}, c_gen [B3] = {x := z}; c_kill 
[B = {x := y} (因为 y 在 B; 中 被 赋值 )， 
c_kill [B = {x := 2} (因为 x 在 By PRR 
值 )，c_kill [B3] = {x := y} (同样 的 原因 )。 

其 他 的 c_gen 和 ckil 为 O, HAE 
(10-12), in [B] = 名。 算法 10.3 的 一 遍 扫 描 
可 以 确定 下 式 成 立 : 

in(B,] = in[B;] = out(B,] = {x: =y} 

类 似 地 ，out[Bs] =O, WA 图 10-35 流 图 的 例子 


out(B3) = in[B,)] = out(B,) = {x:=z} 





EA, in[Bs] = out[B.]Nout[Bal= ©. 

我 们 注意 到 ， 按 算法 10.5 的 原则 ， 复 制 x := y 和 x := z 都 不 能 到 达 块 B; 中 x 的 引用 ， 虽 
然 按 到 达 定 义 的 含义 ， 这 些 x 的 定义 都 能 到 达 块 Bs;。 这 两 个 复制 几乎 都 不 能 传播 ， 因 为 不 能 
用 y (或 z ) 代替 定义 x := y (或 x := z) 所 能 到 达 的 x 的 所 有 引用 ， 仅 能 做 的 是 将 块 Bs 中 的 
x Fz 代替 , 但 这 样 做 并 没有 改进 代码 。 口 


现在 我 们 详细 说 明 删 除 复制 语句 的 算法 。 

算法 10.6 复制 传播 。 

WA: 流 图 G， 带 有 给 出 到 达 块 B 的 定义 的 ud 链 ， 以 及 表示 方程 (10-12) 的 解 的 c_in[8]， 
即 沿 着 每 条 路 径 到 达 块 B 的 复制 语句 x := y 的 集合 ， 在 这 些 路 径 上 x := y 的 最 后 一 次 出 现 之 
后 没有 对 x Ry 的 赋值 。 我 们 还 需要 能 给 出 每 个 定义 的 引用 的 du 链 。 
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输出 : 修正 后 的 流 图 。 

Ak: 对 每 个 复制 语句 s，x := y 执行 下 列 步骤 : 

1. 确定 出 由 该 x 的 定义 ， 即 s: x := y， 所 能 到 达 的 那些 x 的 引用 。 

2. 对 步骤 1 中 找到 的 每 个 x 的 引用 ,确定 s 是 否 在 c_in[B] 中 ， 其 中 块 8 是 含有 x 的 这 次 引 
用 的 基本 块 ， 而 且 块 B 中 该 引用 的 前 面 没有 x 或 y 的 定义 。 回 想 一 下 ,如果 s 在 c_in[B] 中 ， 
那么 * 是 惟一 的 到 达 块 B 的 x 的 定义 。 

3. 如 果 s 满足 步骤 2 的 条 件 ， 则 删 掉 *， 且 把 步骤 1 中 找 出 的 所 有 x 的 引用 用 y KRÆ. C 
10.7.3 循环 不 变 计算 的 检测 

我 们 将 利用 ud 链 来 检测 那些 循环 不 变 计算 ， 即 只 要 控制 不 离开 循环 ， 其 值 就 不 改变 的 那些 
计算 。10.4 节 已 讨论 过 ， 循 环 是 由 一 组 基本 块 组 成 的 区 域 ， 其 首 节点 支配 所 有 其 他 块 ， 所 以 进 
人 循环 只 能 通过 首 节点 。 我 们 还 要 求 从 循环 中 的 任何 块 至 少 有 一 条 路 径 回 到 首 节点 。 

如 果 循 环 中 含有 赋值 x := y+z， 而 y 和 z 所 有 可 能 的 定义 都 在 循环 外 面 (包括 y、z 是 党 
数 的 特殊 情况 )， 那 么 y+z 就 是 循环 不 变 计算 。 因 为 只 要 控制 不 离开 循环 ， 每 次 碰 到 x := y+z 
时 y+z 的 值 都 是 一 样 的 。 所 有 这 样 的 赋值 都 可 以 从 ud 链 中 找到 ，ud 链 就 是 到 达 赋 值 语句 x := 
y+z y Mz 的 所 有 定义 点 列表 。 

识别 出 x := y+z 计算 的 x 值 在 循环 中 不 变 后 ， 如 果 循环 中 还 有 另 一 条 语句 v := xw, E 
中 w 也 只 能 在 循环 外 定义 ， 那么 x+w 也 是 循环 不 变 计算 。 

根据 上 面 的 想法 ， 可 以 对 循环 进行 重复 扫描 ， 找 出 越 来 越 多 的 循环 不 变 计 算 。 如 果 我 们 同 
时 具有 ud 链 和 du 链 ， 则 甚至 不 需要 重复 扫描 代码 。 定 义 x := y+z 的 du 链 告 诉 我 们 x 的 值 在 哪 
儿 被 引用 ， 我 们 只 要 检查 循环 中 的 这 些 x 的 引用 ， 看 它们 是 否 引 用 x 的 其 他 定义 (通过 ud 链 ) 
即 可 。 如 果 除 x 以 外 ， 其 他 运算 对 象 也 是 循环 不 变量 ， 则 这 些 循环 不 变 赋 值 可 以 移 到 前 置 首 节 
点 中 ， 正 如 下 面 的 算法 所 讨论 的 那样 。 

算法 10.7 ”循环 不 变 计算 检测 。 

输入 : 由 一 组 基本 块 构成 的 循环 L， 每 个 基本 块 包括 一 系列 的 三 地 址 语句 。 对 于 每 个 三 地 
址 语句 ，10.5 节 计算 的 ud 链 都 是 可 用 的 。 

和 输出: 从 控制 进入 循环 上 一 直到 离开 工 ， 每 次 都 计算 同样 值 的 三 地 址 语句 的 集合 。 

Fk: 我 们 只 给 出 算法 的 非 形式 化 说 明 ， 相 信人 能 说 清 它 的 基本 原理 ， 

1. 将 下 面 这 样 的 语句 标记 为 “不 变 ”; 它们 的 运算 对 象 或 者 是 常数 ， 或 者 它们 的 所 有 到 达 
定义 都 在 循环 工 的 外 面 。 . 

2. 重复 步骤 3， 直 到 某 次 重复 没有 新 的 语句 可 标记 为 “不 变 ”为 止 。 

3. 将 下 面 这 样 的 语句 标记 为 “不 变 ”: 它们 先前 没有 被 标记 ， 而 且 它 们 的 所 有 运算 对 象 或 
者 是 常数 ， 其 到 达 定 义 都 在 循环 L 之 外 ， 或 者 只 有 一 个 到 达 定义 ， 这 个 定义 是 循环 L 中 已 标 
记 为 “不 变 ” 的 语句 。 口 
10.7.4 代码 外 提 

找 出 循环 不 变 语句 后 ， 可 以 对 其 中 的 一 些 语句 实施 称 为 代码 外 提 的 优化 ， 即 把 这 些 语句 移 
到 循环 的 前 置 首 节点 。 下 面 3 个 条 件 保证 代码 外 提 不 会 改变 程序 计算 的 内 容 。 没 有 一 个 条 件 是 
非 要 不 可 的 ， 之 所 以 用 这 些 条 件 ， 是 因为 它们 易于 检查 ， 并 且 可 用 到 实际 程序 中 。 后 面 还 将 讨 
论 放宽 这 些 条 件 的 可 能 性 。 

将 语句 s: x := y+z 外 提 的 条 件 是 ; 
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1. 含有 语句 s 的 块 是 循环 中 所 有 出 口 节点 的 支配 节点 ， 出 口 节点 指 的 是 有 后 继 节点 不 在 循 


环 中 的 节点 
2. 循环 中 没有 其 他 语句 对 x 赋值 。 如 果 x 是 只 赋值 一 次 的 临时 变量 ， 这 个 条 件 肯 定 满足 ， 
不 必 检 查 。 


3. 循环 中 x 的 引用 仅 由 到达， 如 果 x 是 临时 变量 ， 这 个 条 件 一 般 也 满足 。 
下 面 3 个 例子 分 别针 对 上 面 这 些 条 件 。 


例 10.20 ”把 不 需要 在 循环 中 执行 的 语句 移 到 循环 外 ， 可 能 会 改变 程序 计算 的 内 容 ， 如 图 
10-36 所 示 。 该 例 触发 条 件 1， 因 为 只 要 不 陷 人 无 限 循环 ， 支 配 所 有 出 口 的 语句 一 定 会 执行 。 

考察 图 10-36a 中 的 流 图 , 块 B, B, 和 Bs 形成 一 个 循环 ， 块 B 是 首 节点 ， 块 B: 中 的 语句 
i := 2 显然 是 循环 不 变 的 ， 但 是 块 Bs 并 不 支配 惟一 的 出 口 块 Bo WRH i := 2 外 提 到 新 的 前 
BATA B 中 ， 如 图 10-36b 所 示 ， 如 果 块 B RET, Bs PRE j 的 值 会 有 所 不 同 。 例 如 ， 如 
果 第 一 次 进入 B: tu = 30 且 v = 25， 因 为 从 没 进 入 过 B;， 所 以 图 10-36a 在 Bs 将 j 置 为 1， 而 
图 10-36b 却 将 j 置 为 2。 口 
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图 10-36 非法 代码 外 提 的 例子 
a) 变换 前 b) 变换 后 


例 10.21 ”如 果 循 环 中 对 x 不 止 一 次 进行 赋值 ， 则 条 件 2 是 必需 的 。 例 如 ， 图 10-37 的 流 图 结 
构 同 图 10-36a 的 一 样 ， 我 们 也 像 图 10-36b 那 样 建立 前 置 首 节点 Beo 

因为 图 10-37 中 的 块 B, 支配 循环 的 惟一 出 口 块 B:， 条 件 1 不 能 阻止 我 们 把 i := 3 外 提 到 前 
置 首 节点 B6。 但 是 ， 如 果 我 们 这 样 做 ， 只 要 块 B 执行 ， 就 会 将 i 的 值 置 为 2， 于 是 到 达 块 B， 
时 i 的 值 将 为 2， 即 便 我 们 是 沿 BBB BBB; 这 样 的 路 径 前 进 的 。 例 如 ， 考 虑 首次 
AHAB: 时 v=22 且 u=21 的 情形 ， 如 果 i := 3 在 BH, MUZE B, 中 将 把 j 置 为 3 ， 然 而 ， 如 果 将 
i := 3 外 提 到 前 置 首 节点 ，j 将 被 置 为 2。 口 


例 10.22 现在 考虑 条 件 3。 图 10-38 中 块 B, 中 的 i 引用 可 以 由 块 B 的 i := 1 到 达 ， 也 可 以 
HRB 的 i := 2 到 达 ， 所 以 不 能 将 i := 2 外 提 到 前 置 首 节点 。 因 为 若 u >= v， 到 达 块 Bs Ak 
值 会 改变 。 例如， 如 果 u =v = 0， 则 图 10-38 的 流 图 将 把 k 置 为 1， 但 如 果 将 i := 2 外 提 到 前 
置 首 节点 ，k 将 被 置 为 2。 口 
算法 10.8 代码 外 提 。 
输入 : 带 有 ud 链 和 支配 节点 信息 的 循环 工 。 
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输出 : 循环 的 修正 版 本 ， 增 加 了 前 置 首 节点 ， 而 且 《〈 可 能 ) 有 一 些 语句 外 提 到 前 置 首 节点 。 

方法 : 

1. 用 算法 10.7 寻 找 循环 不 变 语句 。 

2. 对 步骤 1 中 找到 的 每 个 定义 的 语句 s, 检查 以 下 几 项 : 

i) s 所 在 的 块 支配 工 的 所 有 出 口 。 

ii) x 在 工 的 其 他 地 方 没有 被 定义 。 

iii) 工 中 所 有 x 的 引用 只 能 由 s 中 x 的 定义 到 达 。 

3. 按 算法 10.7 找 出 的 次 序 ， 把 步骤 1 中 找 出 的 潢 足 步骤 2 中 3 个 条 件 的 每 条 语句 s 移 到 新 创 
建 的 前 置 首 节点 。 但 前 提 是 : 在 工 中 被 定义 的 * WEERA (由 算法 10.7 的 步 又 3 找 出 这 
Ms) 已 经 将 其 定义 语句 移 到 前 置 首 节点 。 口 


if u<v goto B, 


visv-1 
if v<#20 goto Bs 


vizv-1 
if v<=20 goto B; 





图 10-37 说 明 条 件 2 的 例子 图 10-38 说 明 条 件 3 的 例子 


为 了 理解 为 什么 没有 改变 程序 所 计算 的 内 容 ， 算 法 10.8 的 条 件 2i 和 2ii 保 证 在 s 中 计算 的 x 
值 必 定 是 工 任何 出 口 之 后 的 x 值 ， 当 把 s 外 提 到 前 置 首 节 点 时 ，s 仍然 是 到 达 工 任何 出 口 的 x 
的 定义 。 条 件 2iii 保 证 工 中 任何 x 的 引用 在 外 提前 后 都 将 引用 s 计算 的 x 值 。 

为 了 明白 为 什么 变换 不 会 增加 程序 的 运行 时 间 ， 我 们 只 需 注意 条 件 2i 即 可 ， 它 保证 控制 每 
次 进入 循环 L 时 ，s 至 少 执行 一 次 。 代 码 外 提 后 ， 它 在 前 置 首 节点 中 仅 执 行 一 次 ， 而 且 控制 进 
入 上 时 ， 它 根本 不 再 执行 。 

10.7.5 可 选 的 代码 外 提 方 案 

如 果 我 们 愿 冒 风险 ， 即 代码 外 提 实 际 上 可 能 增加 一 点 程序 的 运行 时 间 ， 那 么 我 们 可 以 稍微 
放宽 条 件 1; 当然 ， 我 们 决 不 能 改变 程序 所 计算 的 内 容 。 代 码 外 提 条 件 1 ( 即 算法 10.8 中 的 2i 项 ) 
的 宽松 版 本 是 仅 当 下 列 条 件 成 立时 ， 我 们 可 以 将 定义 x 的 语句 s 外 提 : 

1. 包含 s 的 块 支配 循环 的 所 有 出 口 ， 或 者 x 在 循环 之 外 没有 被 引用 。 例 如 ， 如 果 x 是 一 -个 
临时 变量 ， 我 们 可 以 确定 〈 在 许多 编译 器 中 ) 它 的 值 只 能 在 它 自 己 的 块 中 被 引用 。 通 常 ， 需 要 
通过 活 唉 变量 分 析 来 判断 x 在 循环 的 任何 出 口 是 否 是 活跃 的 。 

如 果 使 用 条 件 1 修改 算 法 10.8， 有 时候 运行 时 间 会 有 少量 的 增加 ,但 是 我 们 可 以 期 望 得 到 
比较 好 的 平均 时 间 。 修 改 后 的 算法 可 以 将 某 些 循环 中 不 被 执行 的 计算 移 到 前 置 首 节 点 中 。 但 是 
这 种 冒险 不 仅 会 显著 减 慢 程序 的 运行 速度 ， 还 可 能 会 在 特定 的 环境 下 引发 错误 。 辟 如， 循环 中 
除法 x/y 的 计算 可 能 跟 在 y=0 是 否 成 立 的 测试 之 后 ， 所 以 如 果 我 们 将 x/y 移 到 前 置 首 节点 ， 可 
能 就 会 出 现 被 0 除 的 错误 。 为 此 ， 除 非 优化 受到 程序 员 的 约束 或 者 我 们 在 除 语句 中 使 用 条 件 1， 
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否则 使 用 条 件 1 是 不 明智 的 。 

对 于 算法 10.8 中 的 条 件 21、2ii 和 2iii， 即 使 赋值 语句 x := y+z 均 不 满足 它们 ， 我 们 仍然 可 
以 将 y+z 移 到 循环 之 外 。 创 建 一 个 新 的 临时 变量 t ， 并 在 前 置 首 节 点 中 置 t := y+z， 然 后 在 循 
环 中 用 x := 上 RR x := y+z。 在 很 多 情况 下 ， 我 们 能 够 传播 循环 中 的 复制 语句 x := t， 如 同 
本 节 前 面 所 讨论 的 。 注 意 ， 如 果 满 足 算 法 10.8 的 条 件 2i， 也 就 是 说 ， 如 果 循 环 工 中 所 有 x 的 
引用 都 是 在 x := y+z (现在 是 x := 上 上 ) 中 定义 的 ， 那么 ， 通 过 用 上 的 引用 替换 LL 中 x 的 引用 ， 
并 将 x = t 放 在 循环 的 每 一 个 出 口 之 后 ， 我 们 就 可 以 删除 语句 x := to 
10.7.6 代码 外 提 后 对 数据 流 信 息 的 维护 

算法 10.8 的 变换 没有 改变 ud 链接 信息 ， 因 为 根据 条 件 21、2iit 和 2iii， 由 外 提 语 句 s 赋值 的 变 
量 的 所 有 引用 ， 原 来 能 由 s 到 达 的 ， 现 在 仍 能 由 新 位 置 的 * 到 达 。s 引用 的 变量 的 定义 或 者 在 
EM Lb (这 种 情况 下 它们 到 达 前 置 首 节点 ) 或 者 在 循环 L 内 ( 这 种 情况 下 ， 由 步骤 3， 它 们 已 
移 到 s 之 前 的 前 置 首 节点 中 )。 

如 果 ud 链 由 指向 语句 的 指针 的 指针 表 ( 而 不 是 指向 语句 的 指针 表 ) 来 表示 ， 则 ud 链 的 维护 
将 非常 简单 。 在 外 提 语 名 s 时 ， 只 要 修改 指向 s 的 指针 即 可 。 也 就 是 说 ， 为 每 个 语句 s 建 一 个 
指针 p,， 它 总 是 指向 s， 把 p, 放 在 每 个 包含 s 的 ud 链 中 ， 然 后 ， 不 管 * 移 到 哪里 ， 我 们 只 要 改 
变 pb, 即 可 ， 而 不 管 现在 有 多 少 个 含 s 的 ud 链 。 当 然 ， 多 一 层 间 接 寻 址 会 增加 编译 器 的 时 间 和 
空间 开销 。 

如 果 我 们 用 语句 地 址 (指向 语句 的 指针 ) 表 来 表示 ud 链 ， 在 外 提 语 句 时 仍 能 维护 ud 链 。 但 
是 ， 若 为 提高 效率 ,我 们 需要 用 du 链 。 在 外 提 s 时 ， 我 们 可 顺 着 它 的 du 链 ， 改 变 所 有 指向 s 的 
引用 的 ud 链 。 

代码 外 提 时 ， 支 配 节 点 信息 略 有 改变 。 前 置 首 节点 现在 是 首 节点 的 直接 支配 节点 ， 而 前 置 
首 节点 的 直接 支配 节点 是 原先 首 节 点 的 直接 支配 节点 。 也 就 是 说 ， 前 置 首 节点 作为 首 节点 的 父 
节点 被 插入 到 支配 树 中 。 

10.7.7 归纳 变量 删除 

在 循环 LP, FEE x 值 的 每 次 改变 都 是 增加 或 减少 某 个 固定 的 常数 ， 那 么 x 称 为 循环 L 
的 归纳 变量 。 通常， 每 次 环绕 循环 ， 归 纳 变 量 增加 相同 的 常数 值 ， 例 如 以 for i := 1 to 10 开 头 
的 循环 中 的 i。 我 们 的 方法 将 处 理 当 我 们 环绕 循环 时 会 增加 或 减少 0 次 、1 次 、2 次 或 多 次 的 变 
量 。 归 纳 变 量 改 变 的 次 数 甚至 会 随 不 同 的 迭代 而 有 所 不 同 。 

归纳 变量 的 一 种 常见 情况 是 作为 数组 的 下 标 ， 例 如 i; 某 些 其 他 的 归纳 变量 ( 如 t， 它 的 
EE i 的 线性 函数 ) 是 用 于 访问 数组 的 实际 偏 移 。i 经 常 仅 用 于 测试 循环 的 终止 ， 因 此 用 对 某 
个 上 的 测试 代替 它 ， 我 们 就 可 以 去 掉 io 

为 便于 表示 ， 下 面 的 算法 处 理 受 限制 的 一 类 归纳 变量 。 通 过 增加 归纳 变量 的 种 类 可 以 扩展 
该 算法 ， 但 需要 证 明 那 些 关于 含有 通用 算术 运算 符 表 达 式 的 定理 。 

如 果 循 环 中 的 变量 i 只 有 惟一 形 如 i := i +c 的 赋值 ， 其 中 c 是 常量 ， 那 么 i 就 是 我 们 要 
找 的 循环 的 基本 归纳 变量 ”。 然 后 再 寻找 其 他 的 归纳 变量 j-， 它 仅 在 L 中 定义 一 次 ， 而 且 其 值 


[643] 是 某 个 基本 归纳 变量 i 的 线性 函数 。 


算法 10.9 归纳 变量 检测 。 
输入 : 带 有 到 达 定 义 信息 和 循环 不 变 计算 信息 〈 由 算法 10.7 得 到 ) 的 循环 工 。 


O 在 我 们 关于 归纳 变量 的 讨论 中 ,“+” 只 代表 加 法 运算 符 而 不 是 一 般 运算 符 ， 其 他 标准 的 算术 运算 符 也 是 如 此 。 
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输出 : 一 组 归纳 变量 。 与 每 个 归纳 变量 j 相 关联 的 是 三 元 组 (i ，c，4d)， 其 中 i 是 基本 归纳 
变量 ，c 和 4 是 常量 ,在 j 的 定义 点 ，j 的 值 由 cx*i+a 给 出 。 我 们 称 j 属于 i 族 ， 基 本 归纳 
变量 i 也 属于 它 自己 的 族 。 

方法 : 

1. 扫描 工 的 语句 ， 找 出 所 有 的 基本 归纳 变量 。 在 此 ， 我 们 要 用 到 循环 不 变 计 算 的 信息 。 与 
每 个 基本 归纳 变量 i 相关 联 的 三 元 组 是 (i, 1, 0)。 

2. 寻找 工 中 只 有 一 次 赋值 的 变量 xk ， 它 具有 下 面 的 形式 之 一 : 

kisjeb, k:=b»+j, Kk:=j/b, Kk:=j+b, k:=b+t] 


其 中 , 是 常数 ，j 是 基本 的 或 非 基本 的 归纳 变量 。 

如 果 j 是 基本 归纳 变量 ， 则 k 在 j 族 中 。kx 的 三 元 组 依赖 于 定义 它 的 指令 。 例 如 ， 如 果 k 
由 k :=j*b 定 义 ,那么 k 的 三 元 组 是 (j, pb, 0)。 其 余 情 况 的 三 元 组 可 以 类 似 地 定义 。 

如 果 j 不 是 基本 归纳 变量 , 令 j 属于 i 族 ， 那么 我 们 附加 的 要 求 是 : 

(a) 在 循环 上 中 对 j 的 惟一 赋值 和 对 k 的 赋值 之 间 没 有 对 i 的 赋值 。 

(b) JAE L 外 没有 j 的 定义 可 到 达 ko 

常见 的 情况 是 k 和 j 属于 同一 块 中 的 临时 变量 ， 它 们 比较 容易 检查 。 通常， 如 果 我 们 分 
析 工 的 流 图 以 确定 哪些 块 (哪些 定义 ) 位 于 对 j 和 对 k 赋 值 之 间 的 路 径 上 ， 那 么 到 达 定 义 信息 
将 提供 我 们 需要 的 这 种 检查 。 

我 们 从 j 的 三 元 组 (i, c,d) 和 定义 k 的 指令 来 计算 x 的 三 元 组 。 例 如 ， 定 义 k := b*j 导致 k 
的 三 元 组 为 (i,b*c, b*d) o TER, b*c 和 btd 可 以 在 分 析 过 程 中 完成 计算 , 因为 b,c 和 4 都 
是 常量 。 口 


一 且 找 出 归纳 变量 族 ， 我 们 就 可 以 修改 计算 归纳 变量 的 指令 ， 改 用 加 或 减 而 不 是 乘 。 这 种 
用 较 快 指令 代替 较 慢 指令 的 变换 称 为 强度 削弱 。 


例 10.23 图 10-39a 中 由 基本 块 8, 构 成 的 循环 中 含有 基本 归纳 变量 i ， 因 为 循环 中 对 i 惟一 
的 赋值 就 是 将 i 加 1。i 族 含有 rz， 因为 对 t 只 有 一 次 赋值 ， 其 右 部 为 4*i， 于 是 t 的 三 元 
组 是 (i, 4, 0) 。 同 样 地 ， 在 由 块 B: 构成 的 循环 中 ，j 是 仅 有 的 基本 归纳 变量 ，ts 属 于 j 族 ， 
其 三 元 组 为 (j, 4, 0) 。 

我 们 还 可 以 寻找 以 块 B 为 首 节点 包括 B, Bs, Bs 和 Bs 的 外 循环 中 的 归纳 变量 ，i 和 j 都 是 这 
个 较 大 循环 中 的 基本 归纳 变量 ; ts 和 ts 也 是 归纳 变量 ,其 三 元 组 分 别 是 (i, 4, 0) 和 G, 4, 0)。 

图 10-39b 的 流 图 是 将 下 面 的 算法 应 用 到 图 10-39a 后 得 到 的 。 下 面 我 们 将 讨论 该 变换 。 OO 


算法 10.10 ”用 于 归纳 变量 的 强度 削弱 。 

HA: 循环 工 ， 附 带 有 到 达 定 义 信息 和 由 算法 10.9 算 出 的 归纳 变量 族 。 

输出 修正 后 的 循环 。 

方法 : 依次 考虑 每 个 基本 归纳 变量 i 。 对 每 个 三 元 组 为 (i c, d) 的 i 族 中 的 归纳 变量 j， 
执行 如 下 步骤 ; 

1. 建立 新 变量 s， 但 如 果 变 量 jj 和 js 具有 同样 的 三 元 组 ， 则 只 为 它们 建立 一 个 新 变量 。 

2. 用 j := s 代 替 对 j 的 赋值 。 

3. 在 工 中 紧 跟 在 每 个 赋值 语句 i := i+n 之 后 (n 是 常量 )， 添加 上 如 下 语句 : 


8&8 := B + can 
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其 中 ;表达 式 c*n 的 计算 结果 为 一 个 常数 ， 因 为 c 和 n 是 常数 。 将 s 放 入 i 族 ， 其 三 元 组 为 
(i, c, d)o 


4. 还 必须 保证 在 循环 的 入 口 处 s 的 初 值 为 c*i + dg， 该 初始 化 可 以 放 在 前 置 首 节点 的 末尾 ， 
初始 化 由 下 面 两 个 语句 组 成 : 


s := c#i 7s WPA, WA si #/ 
s := s+d AZ 如 果 d 为 0 则 省 略 */ 


注意 ，s 是 i 族 的 归纳 变量 。 口 


ts := a(t,] 


if ts>v goto B, 





图 10-39 强度 削弱 
a) 变换 前 b) 变换 后 
例 10.24 ”假设 我 们 从 里 向 外 考虑 图 10-39a 中 的 循环 。 因 为 内 循环 B, AB, 的 处 理 非 常 类 似 ， 
所 以 我 们 仅 考 虑 环绕 Bs 的 循环 。 在 例 10.23 中 ， 我 们 发 现在 围绕 B 的 循环 中 ，j 是 其 基本 归纳 
变量 ，ts 是 另 一 个 归纳 变量 ， 其 三 元 组 为 (j, 4, 0) 。 在 算法 10.10 的 步骤 1 中 ， 构 造 了 一 个 新 变 
量 s4。 在 步骤 2 中 ， 赋 值 语 句 t4 := 4*j 被 ts := s4 人 代替。 步骤 4 将 赋值 语句 s4 := s4-4 插 在 赋值 
语句 j := j ~1 的 后 面 ， 其中，-4 是 由 -1 乘 4 得 到 的 ，-1 是 对 j 的 赋值 中 的 -1， 而 4 是 ts 的 三 元 
组 (j, 4, 0) 中 的 4。 
AAR B 充当 循环 的 前 置 首 节点 ， 所 以 我 们 可 以 将 对 s4 的 初始 化 放 在 块 有 的 末尾 ， 而 块 
BANE. SITES BER B 中 用 虚线 扩展 的 部 分 。 
当 考 虑 外 循环 时 ， 流 图 如 图 10-39b 所 示 。 变 量 i ，s，,，，j 和 ss 都 可 以 看 作 是 归纳 变量 ,但 
算法 10.10 的 步骤 3 已 把 新 建 变量 分 别 加 入 了 i 族 和 j 族 。 为 了 完成 i 和 j 的 删除 ,我们 需要 使 用 
下 一 个 算法 。 o 


强度 削弱 后 ， 我 们 发 现 有 些 归 纳 变量 只 是 用 于 测试 ， 可 以 用 对 其 他 归纳 变量 的 测试 代替 对 
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这 种 妇 纳 变量 的 测试 。 例 如 ， 若 1 和 t 是 归纳 变量 ，t 的 值 总 是 i 的 4 倍 ， 那 么 测试 1> =j 就 等 价 
于 >=4*]j， 替 换 后 有 可 能 删除 1。 但 如 果 上 = -4*i， 则 需 同 时 改变 关系 运算 符 ， 因 为 1>=j 等 
价 于 k<=-4*j。 在 下 面 的 算法 中 ， 我 们 将 只 考虑 乘 数 为 正 的 情况 ， 而 将 算法 推广 到 适用 于 负 
数 的 情况 留 作 练习 。 

算法 10.11 归纳 变量 删除 。 

WA. 带 有 到 达 定 义 信息 、 循 环 不 变 计 算 信 息 (从 算法 10.7 得 到 ) 和 活路 变量 信息 的 循环 Lo 

输出 ; 修正 后 的 循环 。 

方法 : 

1. 考虑 每 个 仅 用 于 计算 同族 中 和 条 件 分 支 中 其 他 归纳 变量 的 基本 归纳 变量 i 。 取 i 族 的 某 
个 i， 优 先 取 其 三 元 组 (i, c, a ) 中 的 c Fd 尽 可 能 简单 的 j( 即 优先 考虑 c=1 和 d=0 的 情况 )， 
把 每 个 含 i 的 测试 改 成 用 j 代 替 i。 我 们 假定 下 面 的 -是 正 的 。 用 下 面 的 语句 来 代替 形 如 if i 
relop x goto B 的 测试 ， 其 中 x 不 是 归纳 变量 : 

r := c#x fe 如 果 c 等 于 1， 则 为 := x #7 

r := red 7* 如 果 d 为 0 则 省 路 +7 

if j relop r goto B 
其 中 r 是 新 的 临时 变量 。 对 if x relop i goto 8B 的 处 理 与 此 类 似 。 如 果 测 试 if i relop iz 
goto B 中 的 iMi REKATE, MRA Mi 是 否 都 能 被 代替 。 最 简单 的 情况 是 我 们 有 
三 元 组 为 Gi, ca, d) 的 j 和 三 元 组 为 (io, 2, d2) 的 j ， 并 且 c = cx，d = qd;， HBA, i relop 
i, 等 价 于 ji relop j: 。 在 更 复杂 的 情况 下 ， 测 试 的 替换 可 能 是 没有 价值 的 ， 因 为 我 们 可 能 要 引 
人 两 步 乘 和 一 步 加 ， 而 删除 1 和:iz 只 能 节省 两 步 。 

最 后 ， 因 为 被 删除 的 归纳 变量 已 经 没有 什么 用 处 ， 所 以 从 循环 上 中 删除 所 有 对 它们 的 赋值 。 

2. 现在 考虑 由 算法 10.10 为 其 引入 的 语句 j := s 的 每 个 归纳 变量 j。 首 先 检查 在 引入 的 j := s 
和 任何 j 的 引用 之 间 有 没有 对 s 的 赋值 ， 应 该 是 没有 。 一 般 情况 下 ，j 在 定义 它 的 块 中 被 引用 ， 
这 可 以 简化 该 检查 ; 否则 ， 需 要 用 到 达 定 义 信息 ， 并 加 上 一 些 对 图 的 分 析 来 实现 这 种 检查 。 然 
后 用 对 s 的 引用 代替 所 有 对 3j 的 引用 ， 并 删除 语句 j := s。 口 


例 10.25 考虑 图 10-39b 的 流 图 。 环 绕 B 的 内 循环 包含 两 个 归纳 变量 i 和 s, ,但 是 一 个 也 
不 能 被 删除 ， 因 为 s: 是 数组 a 的 下 标 ， 而 i 被 用 于 循环 外 的 测试 。 同 样 ， 环 绕 B 的 循环 包含 
归纳 变量 j 和 s, 但 是 它们 也 都 不 能 被 删除 。 

再 让 我 们 把 算法 10.11 用 于 外 循环 。 当 算法 10.10 建 立新 变量 s, 和 s4 时 ，s; 被 置 于 i 族 ，s。 
被 置 于 j 族 ， 如 例 10.24 所 讨论 的 那样 。 考 虚 i 族 ，i 的 惟一 用 途 是 在 块 B4 中 测试 循环 是 否 终止， 
所 以 i 是 在 算法 10.11 的 步骤 1 中 要 被 删除 的 候选 。 块 Bs 的 测试 包含 两 个 归纳 变量 i Mj, ER, 
分 别 包 含 在 i KA j 族 中 的 归纳 变量 s: 和 ss 的 三 元 组 具有 同样 的 常数 ， 因 为 这 两 个 三 元 组 分 
PÆ (i, 4,0) 和 (j, 4, 0)， 于 是 ， 测 试 i>=j 可 由 s;>=ss 代 圭 ， 使 得 i 和 j 都 可 以 被 删除 。 

算法 10.11 的 步 又 2 将 复制 传播 用 于 新 建 的 变量 ， 用 s: 和 s4 分 别 代 替 了 to 和 tao g 
10.7.8 带 有 循环 不 变 表达 式 的 归纳 变量 

在 算法 10.9 和 算法 10.10 中 ， 我 们 允许 用 循环 不 变 表达 式 代 替 常 量 ， 但 是 归纳 变量 j 的 三 元 
组 G, c, d) 中 可 能 包含 循环 不 变 表 达 式 而 不 是 常量 。 这 些 表 达 式 的 计算 应 该 在 循环 L 外 的 前 
置 首 节点 中 完成 。 而 且 ， 因 为 中 间 代 码 要 求 每 个 语句 至 多 含有 一 个 运算 符 ， 因 此 我 们 必须 准备 
为 这 种 表达 式 的 计算 生成 中 间 代 码 语句 。 算 法 10.11 中 测试 的 替换 需要 知道 乘法 常量 c 的 正 负 
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号 ， 为 此 ， 我 们 应 该 把 注意 力 集中 在 c 是 已 知 常量 的 那些 情况 。 
10.8 处 理 别 名 


如 果 两 个 或 多 个 表达 式 表 示 相 同 的 内 存 地 址 ， 我 们 称 这 些 表 达 式 互 为 别名 。 指 针 和 过 程 都 
有 可 能 引入 别名 ， 本 节 讨 论 包含 指针 和 过 程 的 数据 流 分 析 。 

因为 指针 会 引起 定义 和 引用 的 不 确定 性 ， 使 得 数据 流 分 析 变 得 更 加 复杂 。 如 果 我 们 不 知道 
指针 pb 指 向 何 处 ， 一 种 安全 的 做 法 是 假定 指针 的 间接 赋值 会 潜在 地 改变 〈 即 定义 ) 任何 变量 。 
我 们 还 必须 假设 ， 对 指针 所 指向 数据 的 引用 ， 比 如 x := *p， 潜 在 地 可 能 引用 任何 变量 。 这 些 
假设 产生 了 更 多 的 活跃 变量 和 到 达 定 义 ， 以 及 更 少 的 可 用 表达 式 。 幸 运 的 是 ， 可 以 利用 数据 流 
分 析 约 束 指针 的 指向 ， 从 而 在 其 他 数据 流 分析 中 得 到 更 多 的 正确 信息 。 

和 指针 变量 赋值 相似 ， 在 进行 过 程 调 用 时 ， 如 果 能 计算 出 过 程 中 可 能 发 生 改 变 的 变量 的 集 
合 ， 就 不 必 假 设 所 有 变量 都 可 能 发 生 改 变 。 在 所 有 的 代码 优化 中 ， 我 们 仍 会 犯 保 守 性 错误 。 
也 就 是 说 ， 可 能 被 改变 或 引用 的 变量 的 集合 完全 包含 了 在 程序 执行 中 实际 被 改变 或 引用 的 变 
E. 通常， 我 们 只 需 努 力 接 近 真 正 被 改变 或 引用 的 变量 的 集合 ， 而 不 必 过 分 费力 或 错误 地 改 
变 程序 行为 。 

10.8.1 一 种 简单 的 指针 语言 

特殊 地 ， 让 我 们 考虑 一 种 只 具有 基本 数据 类 型 ( 如 整 型 和 实 型 ) 和 数组 的 语言 ， 每 种 基本 
数据 类 型 占用 一 个 字 。 此 外 ， 该 语言 包含 指向 基本 数据 类 型 和 数组 的 指针 ， 但 不 包含 指向 其 他 
指针 的 指针 。 对 于 指向 数组 的 指针 ， 只 需 知 道 指针 p 指 向 数组 a 的 某 处 即 可 ， 而 不 必 关 心 p 指 向 
a 的 哪个 特定 元 素 。 考 虑 使 用 指针 的 目的 ， 将 数组 的 所 有 元 素 聚 集 在 一 起 是 合理 的 。 典 型 地 ， 
指针 在 整个 数组 中 可 以 当 作 游标 使 用 ， 如 果 我 们 能 实现 一 个 更 详细 的 数据 流 分 析 ， 应 该 在 程序 
的 特定 点 上 指出 p 可 能 指向 a 的 哪 一 个 元 素 。 

我 们 还 必须 假设 指针 上 的 算术 操作 在 语义 上 是 有 意义 的 。 首 先 ， 如 果 指 针 p 指 向 基本 数据 
元 素 ， 那 么 p 上 的 任何 算术 操作 将 产生 一 个 非 指针 类 型 的 值 ， 这 个 值 可 以 是 整 型 。 如 果 p 指 向 
数组 ， 那 么 p 加 减 一 个 整数 将 使 其 指向 同一 数组 的 其 他 元 素 ， 而 指针 上 的 其 他 算术 操作 将 产生 
一 个 非 指针 值 。 尽 管 不 是 所 有 的 语言 都 禁止 通过 增加 指针 的 值 将 指针 从 一 个 数组 a 转 移 到 另 一 
个 数组 b 上 ， 但 这 样 的 操作 依赖 于 数组 b 在 存储 器 中 必须 紧 跟 在 a 的 后 面 。 在 我 们 的 观点 中 ， 
在 决定 执行 何 种 优化 时 ， 一 个 优化 编译 器 只 需 关注 语言 定义 。 但 是 ， 每 个 编译 器 实现 者 都 必须 
判定 编译 器 应 该 执行 何 种 特定 的 代码 优化 。 

10.8.2 指针 赋值 的 作用 

在 这 些 假 设 下 ， 只 有 被 声明 为 指针 的 变量 ， 以 及 通过 指针 加 / 减 一 个 常数 得 到 的 临时 变量 ， 
才能 被 用 作 指 针 变量 。 将 所 有 这 样 的 变量 称 为 指针 。 确 定 指针 p 指 向 何 处 的 规则 如 下 ; 

1. 如 果 存在 赋值 语句 s: p := a, 那么 紧 跟 s 之 后 ，p 只 能 指向 ao WR a 是 一 个 数组 ， 
那么 在 对 p 进行 形 如 p := tatc (c 为 常量 ) 的 赋值 之 后 ，p 只 能 指向 a. ?通常 ， 我 们 认 
为 ka 指向 数组 a 的 第 一 个 元 素 的 位 置 。 

2. 如 果 存 在 赋值 语句 s: p := qtc， 其 中 c 是 非 零 整 数 ，p 和 a 是 指针 ,那么 紧 跟 s 之 后 ， 
p 可 以 指向 s 之 前 a 指向 的 任何 数组 ， 但 不 能 指向 其 他 变量 。 

3. 如 果 存 在 赋值 语句 s: p := q， 那么 紧 跟 s 之 后 ，p 可 以 指向 s 之 前 g 指向 的 任何 变量 。 


O 在 本 节 中 ，+ 代 表 它 本 身 而 不 是 一 般 运算 符 。 
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4. 如 果 对 p 做 其 他 赋值 ，p 不 能 指向 任何 对 象 ， 这 样 的 赋值 可 能 没有 意义 ( 依赖 于 语言 
语义 )。 

5. 对 p 以 外 的 变量 进行 赋值 后 ，p 仍然 指向 该 赋值 语句 前 所 指向 的 变量 。 注 意 ， 该 规则 假 
设 指针 不 能 指向 指针 。 放 宽 该 假设 不 会 使 事情 变 得 特别 复杂 ， 我 们 把 对 它 的 推广 留 给 读者 。 

对 于 块 B, ENX in[B] 函 数 : 对 每 个 指针 p， 该 函数 给 出 在 块 B 开始 点 p 指向 的 变量 的 集 
合 。 ÉRE, in[B] EFX (p, a) 的 集合 ， 其 中 p 是 一 个 指针 ，a 是 一 个 变量 ， 序 对 (p, a) 表 示 
p 指向 a。 实 际 上 ，in[B] 可 以 表示 为 指针 的 列表 ， 指 针 p 的 列表 给 出 使 (p, a) 在 in[B] 中 的 a 
的 集合 。 类 似 地 ， 在 块 B 结束 点 定义 了 out[B]。 

定义 转换 函数 transs 来 说 明 块 B 对 变量 的 影响 。 函 数 trans, 把 序 对 集合 S 作 为 参数 并 产生 
另 一 个 集合 T。 每 个 序 对 形 如 (p, a), HP p 是 一 个 指针 ，a 是 一 个 非 指 针 变 量 。 可 以 推测 ， 
transs 是 应 用 到 集合 in[B] 上 ， 并 产生 结果 集合 out[B1。 我 们 只 需 给 出 计算 单条 语句 的 trans 结 
果 和 集合 的 方法 ， 然 后 将 块 B 的 每 条 语句 s 的 trans, 结 果 集 合 组合 起 来 就 形成 了 抉 B 的 transs 。 

计算 trans 的 规则 如 下 : - 

1. 如 果 a 是 一 个 数组 ， 语 句 s 是 p := &a 或 者 p := &a + c， 那 么 

trans, (S) = (S-{(p, b) 1b 是 任意 变量 )) U {(p，a)} 

2. 如 果 s 是 p := q+ c， 其 中 q 是 指针 ，c 是 非 零 整数 ， 那 么 

trans, (S) = (S$-{(p，b) 1b 是 任意 变量 }) U {((p，b)1(G，b) 在 S 中 ，b 是 数组 变量 } 
这 条 规则 在 p=q 时 也 是 有 意义 的 。 

3. WR s fep:=q, MA 

trans, (S) = (S-{(p, b) 1b 是 任意 变量 pU {(p, dD) I (gq, DESH} 

4. 如 果 s 将 任何 其 他 表达 式 的 值 赋 给 指针 p, HRA 

trans: (S) = S-{(P，b) 1b 是 任意 变量 } 

5. 如 果 s 不 是 给 指针 赋值 ， 那 么 trans,(S) = So 

ME, KIB in, out 和 trans 的 方程 式 如 下 : 


out [B] = trans, (in [B]) 


in[B]= U out [P] (10-13) 
By WP 
其 中 ， qi B 由 语句 Sis 82, 7, st 组 成 ， 则 
iransa($) = trans, (transs, ( °° > (trans, (trans; (S$))) 7: )) 


方程 (10-13 ) 可 以 按照 类 似 于 算 
法 10.2 中 的 到 达 定 义 进行 求解 。 因 此 ， 
下 面 我 们 不 介绍 算法 的 细节 ， 而 是 用 
一 个 实例 解释 我 们 的 方法 。 


例 10.26 ”考虑 图 10-40 中 的 流 图 。 
假设 a 是 一 个 数组 ，c 是 一 个 整数 ，p 
和 a 是 指针 。 开 始 ， 我 们 置 in[B1] 为 D. 
然后 ， trans, 删除 所 有 第 一 分 量 为 a 
的 序 对 ， 将 序 对 (q, c) 增加 到 结果 集 
中 。 也 就 是 说 ，a 被 声明 为 指向 c 的 指 图 10-40 说 明 指针 操作 的 流 图 


p := &(a[0]) 





a 
© 
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Et 于 是 有 : 
oui[B ,] = transg (©) = {(q, ©} 


然后 令 in[B] = out[Bi]. p := &c 的 作用 是 用 序 对 (p, c) 取代 所 有 第 一 分 量 为 p 的 序 对 。q := 
& (a[2] ) 的 作用 是 用 (a. a) 取代 所 有 第 一 分 量 为 q 的 序 对 。 注 意 ，q := & (a[21) 实 际 上 是 形 如 
q := &a+c 的 赋值 ，c 为 常量 。 现 在 我 们 可 以 计算 得 到 ， 

out[B,] = transg,({(q, ©)}) = {(p, c), (a, ad} 


同样 地 ， 令 in[B3] = {(q, c)}， 计 算得 到 out[B3] = {(p, a), (a, c)}。 
接 下 来 ， 我 们 发 现 in[B4] = out[B:] U out[B3] U out[Bs]。 可 以 推测 ，out[Bs] 开 始 为 D, H 
且 在 这 一 遍 中 没有 被 改变 。 但 是 out[B2] = {(p, c)，(G, a)} outlBs] = {(p, a)，(q, c)}, FE: 
in[B4] = {(p,a), (p,c), (q,a), (a,c)} 
在 中 的 p:=p+1 使 得 p 必须 指向 一 个 数组 ， 即 : 
out(B 4) = transg (in{B4]) = {(p, a), (a, a),(q, ©)} 


注意 ， 无 论 何 时 执行 B 时 ， 如 果 在 Bs 中 pp := p+1 之 后 间接 引用 了 p, J B; 中 将 p 指向 c 的 
语句 会 成 为 一 个 语义 上 没有 意义 的 动作 。 因 此 ， 该 流 图 是 不 “实际 的 ”， 但 它 的 确 阐明 了 关于 
指针 的 一 些 推论 。 

接 下 来 ， 令 in[Bs) = our[B,), trans, 复制 a 的 目标 变量 并 赋 给 p。 因 为 gq 在 in[B5] 中 可 以 
指向 a 或 者 c， 所 以 


out|B;] = {(p, a), (p, c), (a, a), (a, c)} 


在 下 一 遍 循 环 中 ， 我 们 发 现 in[B1] = out[B4]， 所 以 out[B1] = {(p, a)，(q, c)}。 这 个 值 也 是 
in[B2] 和 in{B;] 的 新 值 ， 但 这 些 新 值 不 再 改变 out[B2]、outtB3] 和 in[B4]。 于 是 ， RIDEN TIE 
要 的 答案 。 口 
10.8.3 利用 指针 信息 

假定 in[B) 是 位 于 块 B 开始 点 的 所 有 指针 指 问 的 变量 的 集合 , 并 假定 在 块 B 中 引用 了 指针 p。 
从 in[B] 开 始 ， 对 块 B 中 引用 p 之 前 的 每 条 语句 s 应 用 trans; 。 这 些 计算 将 指出 ， 在 包含 重要 信 
息 的 特定 语句 上 指针 p 指向 了 何 处 。 

假设 已 经 可 以 确定 每 一 个 指针 在 用 于 间接 引用 ( 可 能 出 现在 赋值 号 左边 ， 也 可 能 出 现在 赋 
值 号 右边 ) 中 时 指向 哪些 变量 ， 那 么 ， 对 通常 的 数据 流 问题 ， 如 何 利用 这 些 信 息 以 获得 更 精确 
的 解 呢 ? 在 每 种 情况 下 ， 我 们 都 应 该 利用 指针 信息 来 保证 只 犯 保守 性 的 错误 。 为 了 解 怎 样 做 出 
上 述 选择 ， 让 我 们 考虑 两 个 例子 : 到 达 定 义 和 活 跃 变量 分 析 。 

可 以 用 算法 10.2 计 算 到 达 定 义 ， 但 还 需要 知道 一 个 块 的 kill 和 gen 值 。 通 常 只 对 没有 通过 
指针 间接 赋值 的 语句 才 计 算 gen 值 。 因 为 p 有 可 能 指向 任意 变量 b， 所 以 间接 赋值 *p := a 会 
产生 对 任意 变量 b 的 定义 。 这 个 假设 是 保守 的 ， 因 为 正如 同 10.5 节 所 讨论 的 ; 假设 定义 到 达 一 
个 点 而 实际 上 它 并 没有 到 达 ， 这 种 假设 通常 是 保守 的 。 

当 计 算 kill 时， 我 们 假设 仅 当 b 不 是 数组 而 且 是 p 指 向 的 惟一 变量 时 ，*p := a 才 会 注销 b 
的 定义 。 如 果 p 指 向 两 个 或 者 多 个 变量 ， 那 么 我 们 假设 任何 一 个 变量 的 定义 都 没有 被 注销 。 我 
们 再 次 变 得 保守 起 来 ， 因 为 除非 能 够 证 明 *p := a 重新 定义 了 b， 否 则 我 们 将 允许 b 的 定义 穿 
越 *p = a， 到 达 它 们 能 够 到 达 的 任何 地 方 。 换 句 话说， 出 现 疑 问 时 ， 我 们 假设 定义 会 到 达 那 里 。 

可 以 利用 算法 10.4 处 理 活跃 变量 ,但 必须 重新 考虑 如 何 定 义 形 如 *p := a 和 a := *p 的 语 
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句 的 def 和 use 。 WAJ *p := a 只 引用 了 a Mp. Mb Æ p 可 能 指向 的 惟一 变量 时 ， 我 们 说 
它 定义 了 b。 除 非 b 的 引用 确实 被 *p := a 所 阻塞 ， 否 则 允许 b 的 引用 穿越 赋值 *p := a。 这样， 
我 们 永远 也 不 会 在 b 活跃 的 点 上 声明 它 是 无 用 的 。 语 句 a := *p 表示 a 的 定义 ， 并 表示 p 的 引 
FAR p 指向 的 任何 变量 的 引用 。 通 过 最 大 化 可 能 发 生 的 引用 ， 我 们 将 活跃 变量 的 估计 最 大 化 。 
通过 最 大 化 活路 变量， 我 们 通常 变 得 保守 。 例 如 ， 我 们 会 生成 一 个 保存 了 无 用 变量 的 代码 ， 但 
我 们 决 不 会 忘记 保存 任何 活跃 变量 。 
10.8.4 ”过程 间 的 数据 流 分 析 

至 此 ， 我 们 所 说 的 程序 只 是 单个 过 程 ， 因 而 只 有 一 个 流 图 。 现 在 我 们 讨论 如 何 从 许多 相互 
作用 的 过 程 中 收集 信息 。 基 本 思想 是 ， 首 先 确 定 一 个 过 程 如 何 影响 其 他 过 程 的 gen, kill, use 
和 def 信息 ， 然 后 独立 地 计算 每 个 过 程 的 数据 流 信息 。 

在 数据 流 分 析 期 间 ， 我 们 必须 处 理 过 程 调用 时 由 参数 所 建立 的 别名 。 因 为 两 个 全 局 变量 不 
可 能 表示 相同 的 内 存 地 址 ， 所 以 在 一 对 别名 中 至 少 有 一 个 是 形式 参数 。 形 式 参数 可 以 被 传递 给 
过 程 ， 所 以 两 个 形式 参数 有 可 能 互 为 别名 。 


例 10.27 ” 设 有 过 程 p， 带 有 两 个 形式 参数 x 和 y， 参 数 传递 方式 为 传 地 址 方式 。 在 图 10-41 
中 ,我们 看 到 b+x 在 B 和 B 中 都 进行 了 计算 。 假 设 从 B 到 
B; 的 所 有 路 径 都 经 过 B,， 而 且 在 所 有 的 路 径 上 都 不 存在 对 b 
或 x 进行 赋值 的 语句 ， 那 么 bix 在 B 是 否 可 用 呢 ? 答案 依赖 
于 x 和 y 是 否 表示 相同 的 内 存 地 址 。 例 如 ， 可 能 存在 过 程 调用 
p (z, z) ， 或 者 是 p (u,v) ， 其 中 u 和 v 是 另 一 个 过 程 alu 

v) 的 形式 参数 ， 而 且 可 能 调用 q (z, z)。 

同样 地 ， 如 果 x 是 p (x, w) 的 形式 参数 ， 变 量 y 的 作用 
域 是 某 个 调用 了 gp (Bl p(y,t) ) BR a, W x My 可 能 是 
别名 。 更 加 复杂 的 情况 可 能 使 得 x My 互 为 别名 ， 我 们 将 要 制定 一 些 通用 的 规则 以 确定 所 有 
这 样 的 别名 。 口 

可 以 证 明 , 在 某 些 情况 下 ,不 将 变量 看 成 互 为 别名 是 一 种 保守 的 做 法 。 例 如 , 在 到 达 定 义 中 ， 
如 果 我 们 希望 声称 a 的 定义 被 b 的 定义 注销 了 ， 我 们 最 好 确定 只 要 b 的 定义 被 执行 ，a 和 b 就 一 
定 是 别名 。 其 他 情况 下 出 现 疑 问 时 ， 将 变量 看 作 互 为 别名 的 做 法 也 是 保守 的 。 例 10.27 就 是 这 样 
的 情况 。 如 果 可 用 表达 式 b+x 没有 被 y 的 定义 注销 ， 我 们 最 好 认为 Al x 都 不 能 是 y 的 别名 。 
10.8.5 带 有 过 程 调 用 的 代码 模型 

为 了 说 明 如 何 处 理 别 名 ， 让 我 们 考虑 一 种 允许 递归 过 程 的 语言 ， 它 允许 同时 引用 局 部 变量 
和 全 局 变量 。 一 个 过 程 中 可 用 的 数据 只 包括 全 局 变量 和 它 自己 的 局 部 变量 ， 也 就 是 说 ， 语 言 中 
不 存在 块 结构 。 参 数 传递 方式 为 传 地址 方式 。 我 们 要 求 所 有 过 程 的 流 图 都 只 有 一 个 入 口 〈 初始 
节点 ) 和 一 个 返回 节点 〈 它 使 得 控制 返回 到 调用 例 程 )。 为 方便 起 见 ， 我 们 假设 过 程 中 的 每 一 
个 节点 都 位 于 从 入 口 到 返回 节点 的 某 条 路 径 上 

RHE, BREIE p 中 ， 遇 到 过 程 调用 qu, v) 。 要 计算 到 达 定 义 、 可 用 表达 式 或 任何 其 
他 数据 流 分 析 ， 必 须知 道 alu, v) 是 否 可 能 改变 某 些 变量 的 值 。 注 意 ， 我 们 说 的 是 “可 能 ” 改 
变 , 而 不 是 “将 要 ”改变 。 和 所 有 数据 流 问 题 一 样 ， 确 切 地 知道 一 个 变量 的 值 是 否 发 生变 化 是 
不 可 能 的 ， 只 能 找 出 一 个 变量 集合 ， 其 中 的 某 些 变量 的 确 发 生 了 变化 ， 有 些 变量 则 没有 。 通 过 
小 心地 削减 后 一 类 变量 ， 可 以 获得 和 事实 最 相近 的 近似 变量 集合 ， 而 且 尽 量 只 犯 保守 性 错误 。 

过 程 调 用 alu, v) 可 以 定义 的 变量 只 有 全 局 变量 和 变量 u 和 v。 变 量 u 和 v 可 能 是 p 的 局 





图 10-41 别名 问题 的 示例 


n 
Cn 
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部 变量 。a 的 局 部 变量 定义 在 过 程 返 回 之 后 不 保存 任何 结果 。 即 使 p=q， 也 只 是 g 的 局 部 变量 
的 拷贝 发 生 了 变化 ， 而 这 些 拷贝 在 调用 返回 之 后 将 不 再 出 现 。 要 确定 q 所 定义 的 全 局 变量 非常 
简单 ， 只 需 查看 q 中 定义 了 哪些 变量 ， 或 者 在 q 引起 的 过 程 调用 中 定义 了 哪些 变量 。 此 外 ， 
WR q 定义 了 第 一 个 和 /或 第 二 个 形式 参数 ， 或 者 这 些 形式 参数 作为 实 参 被 a 传递 给 定义 u 和 
v 的 过 程 ，u M/R v (它们 可 能 是 全 局 变量 ) 将 会 发 生变 化 。 因 为 变量 可 能 有 别名 ， 并 不 是 
每 个 被 a 改变 的 变量 都 需要 被 a 或 被 a 调用 的 某 个 过 程 明确 定义 。 

10.8.6 别名 的 计算 

在 给 定 的 过 程 中 哪些 变量 会 发 生变 化 ? 在 回答 该 问题 之 前 ， 我 们 必须 设计 一 个 寻找 别名 的 
算法 。 这 里 采用 的 是 一 种 简单 的 方法 。 我 们 将 概念 “是 …… 的 别名 ”形式 化 为 变量 上 的 关系 = ， 
并 且 求 出 该 关系 。 在 这 样 做 的 过 程 中 ， 尽 管区 分 具有 相同 标识 符 但 属于 不 同 过 程 的 局 部 变量 ， 
但 是 ， 对 同一 过 程 的 不 同调 用 中 出 现 的 同名 变量 不 加 区 分 。 

为 简单 起 见 ， 对 程序 不 同 点 上 的 别名 集合 不 加 区 分 。 如 果 两 个 变量 可 能 互 为 别名 ， 则 假设 
它们 总 是 如 此 。 最 后 ,我 们 要 做 一 个 保守 的 假设 ， 即 = 是 传递 的 ， 所 以 变量 被 分 成 若干 等 价 类 ， 
两 个 变量 互 为 别名 当 且 仅 当 它们 在 同一 等 价 类 中 。 

算法 10.12 简单 别名 计算 。 

RA: 过 程 和 全 局 变量 的 集合 。 

输出 : 等 价 关 系 =，= 具 有 如 下 性 质 : 只 要 在 程序 中 的 某 个 位 置 上 ，x My 互 为 别名 ， 则 
x=y; 反 过 来 不 一 定 成 立 。 

方法 : 

1. 如 果 需 要， 将 变量 重新 命名 ,使 得 没有 两 个 过 程 使 用 相同 的 形式 参数 或 者 局 部 变量 标识 
符 。 也 不 允许 局 部 变量 、 形 式 参数 或 者 全 局 变量 共用 同一 个 标识 符 。 

2. 如 果 存 在 过 程 p Cxt，xz，…，xn) 和 对 该 过 程 的 调用 p vi, yn, 
i, Oxi 三 yi。 也 就 是 说 ， 每 个 形式 参数 都 可 以 成 为 相应 实 参 的 别名 。 

3. 通过 增加 以 下 关系 式 求 出 三 在 形 - 实 参 数 对 应 别名 上 的 自 反 传递 闭 包 。 

a) 如 果 y 三 x， 则 x=y。 

b) 对 任意 y， 如 果 x=y 且 y 三 z， 则 x 三 z。 


sy yn)» SUR BRAT HY 


410.28 ”考虑 图 10-42 给 出 的 三 个 过 程 框架 。 其 global g, h; , , 
中 ， 参 数 传递 采用 传 地 址 方式 。 包 含 两 个 全 局 变量 g oor a 
和 h， 两 个 局 部 变量 i 和 k。i 属 于 过 程 main，k B g := nnn 

于 过 程 two。 过 程 one 包 含 形式 参数 w 和 x， 过 程 two ona i) 
包含 形式 参数 y Mz, TH main 没有 任何 形式 参数 。 

在 本 例 中 ， 不 需要 为 变量 重 命名 。 我 们 首先 计算 形 - 实 x := 


procedure one(w, x); 


参数 对 应 的 别名 。 to 
在 过 程 main 中 ， 对 过 程 one 的 调用 使 得 h=w， 
i 三 x。 对 过 程 two 的 第 一 次 调用 使 得 w=y, wez, 
第 二 次 调用 使 得 g=y, x=zo 
WH two 对 过 程 one 的 调用 使 得 k=w，y 三 x。 
当 我 们 求 以 = 表示 的 别名 关系 的 传递 闭 包 时 ， 我 们 发 现 
在 本 例 中 所 有 的 变量 都 可 能 是 另 一 个 变量 的 别名 。 口 


two(g, x) 
end; 
procedure twoly, z); 
local kx; 
h := ... 
one(k, y) 
end 





图 10-42 过 程 样 例 
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算法 10.12 中 的 别名 计算 通常 不 会 发 现 例 10.28 中 的 这 种 扩展 别名 。 直 觉 上 ， 可 以 预期 两 个 
有 具有 不 同类 型 的 变量 不 能 互 为 别 和 名。 此外， 程序 员 无 疑 对 其 使 用 的 变量 存在 概念 类 型 。 比 如 ， 
如 果 过 程 p 的 第 一 个 形式 参数 表示 速度 ， 可 以 预期 在 程序 员 的 眼中 ， 对 p 的 任何 调用 ， 第 一 
个 参数 都 应 该 是 表示 速度 的 。 于 是 ， 直 观 地 我 们 可 以 期 望 大 多 数 程序 只 生成 很 少 的 几 组 别名 。 
10.8.7 存在 过 程 调用 时 的 数据 流 分 析 

作为 一 个 例子 ， 让 我 们 考虑 存在 过 程 调用 时 怎样 计算 可 用 表达 式 ， 其 中 参数 传递 采用 传 地 
址 方式 。 正 如 10.6 节 所 讨论 的 ， 我 们 必须 确定 什么 时 候 可 以 定义 一 个 变量 ， 从 而 注销 一 个 表达 
式 ， 并 且 必 须 确定 表达 式 是 何 时 产生 (计算 ) 的 。 

对 每 一 个 过 程 p， 可 以 定义 集合 change[p]， 集合 中 的 元 素 是 执行 p 时 可 能 被 改变 的 全 局 变 
ER p 的 形式 参数 。 在 这 一 点 上 ， 如 果 一 个 变量 的 别名 等 价 类 中 的 其 个 成 员 被 改变 ， 不 能 认为 
该 变量 发 生 了 改变 。 ， 

A def [p] 是 形式 参数 和 p 中 显 式 定义 的 全 局 变量 (不 包括 那些 p 所 调用 的 过 程 中 定义 的 变 
E) 的 集合 。 在 p 调用 过 程 时 ， 用 全 局 变量 或 p 的 形式 参数 作为 实 参 进行 调用 ， 为 了 写 出 
change [p] 的 方程 式 ， 我 们 只 需 将 p 调用 过 程 时 所 用 的 实 参 同 被 调用 过 程 的 相应 形式 参数 联系 
起 来 。 于 是 可 以 写 出 下 列 方程 : 

change [p] = def ip] UA UG (10-14) 
其 中 ， 

1. A = {ala 是 全 局 变量 或 p 的 形式 参数 ， 使 得 ， 对 于 某 个 过 程 a 和 整数 i，p 调用 a 时 将 
a 作为 第 i 个 实 参 ， 并 且 q 的 第 i 个 形式 参数 在 change [qj 中 }。 

2. G = {g1g 是 change[lq] 中 的 全 局 变量 ,是 p 调 用 了 aq}。 

方程 (10-14) 可 以 用 和夫 代 法 求解 。 虽 然 解 不 惟一 ， 但 我 们 只 需求 得 最 小 解 。 通 过 从 一 个 很 小 
的 近似 值 开始 并 逐步 迭代 ， 可 以 收 剑 于 该 解 。 最 初 的 很 小 的 近似 值 显然 是 change[p] = def [pj。 
迭代 的 细节 留 给 读者 作为 练习 。 

迭代 中 过 程 的 访问 顺序 需要 考虑 。 例 如 ， 如 果 过 程 不 是 相互 递归 的 ， 那 么 可 以 先 访问 不 调 
用 任何 其 他 过 程 的 过 程 ( 至少 有 一 个 )。 对 于 这 些 过 程 ，change = def. 接 下 来 ， 可 以 计算 只 调 
用 了 没 调用 任何 其 他 过 程 的 过 程 的 change 值 。 既 然 对 所 有 的 q，change[q] 都 可 以 用 (10-14) 得 
到 ， 对 下 一 组 过 程 就 可 以 直接 应 用 (10-14)。 

可 以 通过 如 下 方法 使 该 思想 更 精确 。 画 出 一 个 调用 图 ， 其 节点 表示 过 程 。 如 果 p 调 用 了 as， 
就 有 一 条 从 p 到 a 的 边 ?9 。 无 递归 过 程 集合 的 调用 图 中 没有 环 路 。 在 这 种 情况 下 ， 每 个 节点 仅 被 
访问 一 次 。 

现在 给 出 计算 change 的 算法 。 

算法 10.13 变化 变量 的 过 程 间 分 析 。 

输入 : 过 程 py，pz，…，Ppw 。 如 果 调 用 图 是 一 个 无 环 图 ,假设 仅 当 j<i 时 pi 才 调 用 p,。 否 
则 ， 对 过 程 间 的 调用 顺序 不 做 任何 假设 。 


输出 : 对 于 每 一 个 过 程 p， 给 出 change[p]， 即 那些 并 非 通过 别名 改变 而 是 被 p 显 式 改变 的 
全 局 变量 和 p 的 形式 参数 的 集合 。 
方法 : 


O ”在 此 我 们 假设 没有 过 程 定 值 变量 。 它 们 将 使 调用 图 的 构造 复杂 化 ， 因 为 我 们 在 构造 调用 图 的 边 时 必须 确定 
与 过 程 定 值 的 形 参 相对 应 的 可 能 实 参 。 
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1. 通过 检查 ， 对 每 个 过 程 p， 计 算 def [p]。 
2. 执行 图 10-43 中 的 程序 计算 change. 口 


(1) for 每 个 过 程 p do change[p] := def ip]: AZ# 初始 化 «7 

(2) while change [Pp] 发 生变 化 do 

(3) for: := | to n do 

(4) for p: 调用 的 每 个 过 程 q do begin 

(5) 将 change [q] 中 的 所 有 全 局 变量 添加 到 change [pi FP ; 
(6) for 9q 的 每 个 形式 参数 x (第 j 个 ) do 


(7) if x7Echange[q]# then 
(8) for Pp; 对 gq 的 每 次 调用 do 
(9) 许 本 次 调用 的 第 ) 个 实 参 a 是 全 局 变量 
或 p; 的 形式 参数 
(10) then 将 a 添加 到 change [pi] 中 





图 10-43 计算 change 的 迭代 算法 


例 10.29 ”再 次 考虑 图 10-42。 通 过 检查 ，def [main] = {g}, def[one] = {x}, def [two] = 
{h}。 这 些 是 change 的 初始 值 。 该 过 程 的 调用 图 如 图 10-44 所 示 。 按 访问 过 程 的 顺序 依次 处 理 


two, onefilmain. 


对 图 10-42 中 的 程序 考虑 pi =two 时 的 情况 ， 在 第 (4) 行 a 只 能 是 过 Gain 
程 one。 因 为 初始 时 change [one] = {x},， 在 第 (5) 行 没有 往 change CO 
[two] 添 加 任何 变量 。 既 然 第 一 个 实 参 是 two 的 局 部 变量 ， 在 第 (6) 行 ( 
和 第 (7) 行 ， 我 们 只 需要 考虑 过 程 one 的 第 二 个 形式 参数 。 在 惟一 的 一 CD 
次 L[wo 对 one 的 调用 中 ， 第 二 个 实 参 是 y， 而 且 相 应 的 形式 参数 x 被 改 
变 了 ， 所 以 在 第 (10) 行 ， 我 们 置 change [two] = {h, y} 图 10-44 AME 


现在 我 们 考虑 p; =one 时 的 情况 。 在 第 (4) 行 q 只 能 是 过 程 kwo。 在 第 (5) 行 ，h 是 change 
[two] 中 的 全 局 变量 ， 所 以 我 们 置 change [one] = {h, x}。 在 第 (6) 行 和 第 (7) 行 ， 只 有 two 的 第 
一 个 形式 参数 在 change [two] 中 ， 所 以 我 们 必须 在 第 (10) 行 将 9 和 w 添 加 到 change [one] 中 ， 它 
们 是 调用 过 程 Lwo 时 的 前 两 个 实 参 。 于 是 ，change [one] = {g, h, w, x}。 

现在 考虑 main， 过 程 one 改变 了 它 所 有 的 形 参 ， 所 以 h Mi 在 main 调用 one 的 过 程 
中 都 被 改变 了 。 但 i 是 局 部 变量 ， 不 需要 考虑 。 因 而 我 们 置 change fmain] = {9g, n} 最后， 
我 们 重复 执行 第 (2) 行 的 while 循环 ， 重 新 考虑 two, RIEN one 改变 了 全 局 变量 g。 于 是 ， 
调用 one (k, y) 使 得 g 被 改变 了 ， 所 以 change [two] = {g, hy}. 迭代 时 没有 再 发 生变 化 ， 故 
算法 终止 。 口 


10.8.8 change 信息 的 用 途 

作为 使 用 change 的 一 个 例子 ， 让 我 们 考虑 全 局 公共 子 表 达 式 的 计算 。 假 设 我 们 正在 计算 
过 程 p 的 可 用 表达 式 并 且 想 要 计算 块 B 的 a_kill [B]。 我 们 认为 变量 a 的 定义 会 注销 含有 a 或 
含有 可 能 成 为 a 的 别名 的 表达 式 x。 但 是 ， 除 非 a 是 change [q] 中 某 个 变量 的 别名 ( 记 住 ，a 是 
它 自己 的 别名 )， 和 否则 在 8 中 对 过 程 q 的 调用 不 能 注销 含有 a 的 表达 式 。 因 而 ,算法 10.12 和 
算法 10.13 计 算出 来 的 信息 就 可 以 被 用 来 构造 被 注销 表达 式 集合 的 一 个 安全 的 近似 。 

为 了 计算 含有 过 程 调用 的 程序 的 可 用 表达 式 ， 我 们 必须 用 一 种 保守 的 方法 来 估计 过 程 调 用 所 
产生 的 表达 式 的 集合 。 为 稳妥 起 见 ， 假 定 a+b 由 对 q 的 调用 产生 ， 当 且 仅 当 在 每 一 条 从 a 的 入 口 
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到 其 返回 点 的 路 径 上 ,在 arb 之 后 没有 对 a 或 b 的 重新 定义 。 当 寻找 arb 表达 式 的 出 现时 ， 除 非 
在 a 的 所 有 调用 中 ，x 是 a 的 别名 、y 是 b 的 别名 ， 否 则 不 能 接受 x+y 作为 表达 式 a+b 的 出 现 。 

我 们 之 所 以 提出 这 样 的 要 求 ， 是 因为 当 一 个 表达 式 可 用 时 ， 却 被 假定 为 不 可 用 ， 是 犯 了 保 
守 性 错误 。 基 于 同样 的 考虑 ， 必 须 假设 如 果 变 量 z 有 可 能 成 为 a 或 b 的 别名 ， 则 arb 会 被 z 
的 定义 注销 。 因 而 ， 为 所 有 过 程 的 所 有 节点 计算 可 用 表达 式 的 最 简单 的 方法 ， 就 是 假设 过 程 调 
用 不 会 产生 任何 表达 式 ， 而 且 所 有 块 B 的 a_kill [B] 可 以 按照 上 面 的 方法 进行 计算 。 我 们 预期 ， 
典型 的 过 程 不 会 产生 很 多 表达 式 ， 所 以 在 大 多 数 情况 下 ， 该 方法 是 可 用 的 。 

计算 可 用 表达 式 的 更 复杂 、 更 准确 的 一 种 方法 ， 是 对 每 一 个 过 程 p 迭代 计算 gen [p]。 利 
用 上 面 的 方法 ， 可 以 将 gen [p] 初 始 化 为 在 p 返回 节点 的 可 用 表达 式 的 集合 。 也 就 是 说 ， 产 生 
的 表达 式 不 允许 有 别名 ， 即 使 有 其 他 变量 可 能 是 a 或 b 的 别名 ，a+p 也 只 代表 它 自己 。 

现在 再 次 为 所 有 过 程 的 所 有 节点 计算 可 用 表达 式 。 但 是 ， 对 qa (a, b) 的 调用 产生 了 新 的 表 
达 式 ， 即 gen [q] 中 将 a Alb 用 a 的 相应 形式 参数 代替 后 产生 的 表达 式 。a_kill 的 计算 和 前 面 
相同 。 对 于 每 个 过 程 p，gen [p] 的 新 值 可 以 通过 查看 在 p 的 返回 点 上 的 可 用 表达 式 来 得 到 。 该 
选 代 一 直 进 行 到 任何 节点 中 的 可 用 表达 式 都 不 再 变化 为 止 。 


10.9 结构 化 流 图 的 数据 流 分 析 


不 售 goto 的 程序 具有 可 约 流 图 ， 很 多 程序 设计 方法 学 鼓励 程序 具有 可 约 流 图 。 对 多 种 程序 
的 研究 显示 ， 事 实 上 人 们 编写 的 所 有 程序 都 具有 可 约 流 图 ” 。 该 观察 结果 同 程序 优化 有 关 ， 因 
为 在 可 约 流 图 上 我 们 可 以 找到 执行 速度 非常 快 的 优化 算法 。 本 节 我 们 将 讨论 一 些 流 图 的 概念 ， 
例如 与 结构 化 流 图 有 关 的 “区 间 分 析 "。 本 质 上 ， 我 们 要 把 10.5 节 中 的 语法 制导 技术 应 用 到 更 
加 一 般 的 情况 中 ， 即 语法 不 必 提 供 结构 但 流 图 可 以 提供 。 
10.9.1 深度 优先 搜索 

一 种 很 有 用 的 流 图 节点 排序 方法 ， 称 为 深度 优先 排序 ， 它 是 2.3 节 介绍 的 对 树 的 深度 优先 遍 
历 的 推广 。 深 度 优先 排序 可 以 用 来 检测 流 图 中 的 循环 ， 还 有 助 于 提高 10.6 节 中 所 讨论 的 迭代 数 
据 流 算法 的 速度 。 深 度 优 先 排序 从 初始 节点 开始 ， 然 后 搜索 整个 图 ， 并 尽 可 能 快 地 访问 离 初 始 
节点 远 的 节点 ( 深度 优先 )。 搜 索 的 路 线形 成 一 棵 树 。 在 给 出 算法 之 前 ， 让 我 们 考虑 一 个 例子 。 


例 10.30 对 图 10-45 中 流 图 的 深度 优先 搜索 如 图 10-46 所 示 。 实 线 边 形成 一 棵 树 ， 虚 线 边 表 





图 10-45 流 图 图 10-46 深度 优先 表示 


O “人 和 们 所 编写 的 ”不 是 多 余 的 ， 因 为 我 们 知道 许多 程序 生成 带 有 goto 的 “ 鼠 窜 图 ”的 代码 ， 但 这 没有 什么 
关系 ， 这 种 结构 包含 在 这 些 程序 的 输入 中 。 
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示 流 图 的 其 他 边 。 对 流 图 的 深度 优先 搜索 相当 于 对 树 的 前 序 遍 历 ，1 一 3 一 4 一 6 一 7 一 8 一 10， 然 

后 返回 8， 再 到 9。 再 一 次 返回 8， 回 退 到 7，6，4， 然 后 到 5。 再 从 5 退回 到 4， 再 返回 到 3 和 1。 

从 1 到 2， 再 从 2 返回 1， 这 样 我 们 就 对 整个 树 进 行 了 前 序 遍 历 。 注 意 ， 我 们 并 没有 解释 这 棵 树 是 

怎样 从 流 图 中 选 出 来 的 。 口 
节点 的 深度 优先 顺序 和 我 们 在 前 序 遍 历 中 各 节点 最 后 一 次 被 访问 的 顺序 相反 。 


例 10.31 在 例 10.30 中 ,遍历 树 时 访问 节点 的 完整 序列 是 : 

1, 3, 4, 6, 7, 8, 10, 8, 9, 8, 7, 6, 4, 5, 4, 3, 1, 2, 1 
在 该 列表 中 ， 标 注 出 每 个 数字 的 最 后 一 次 出 现 ， 可 以 得 到 

1, 3, 4, 6, 7, 8, 10, 8, 9, 8, 7, 6, 4, 5, 4, 3,1, 2,1 


深度 优先 顺序 是 标注 的 序列 的 相反 顺序 。 在 此 ， 这 个 序列 恰好 是 1，2，…，10。 也 就 是 说 ， 一 
开始 节点 是 按 深 度 优先 顺序 编号 的 。 D 


通过 构造 并 遍历 一 棵 以 初始 节点 为 根 的 树 ， 并 设法 让 树 中 的 路 径 尽 可 能 长 ， 我 们 可 以 给 出 
一 个 计算 流 图 深度 优先 顺序 的 算法 。 RERA RERA A RA (afst), FERRERA 
10-45 构 造 图 10-46 的 算法 。 


算法 10.14 深度 优先 生成 树 和 深度 优先 排序 。 

输入 : 流 图 G。 

输出 : G 的 dfst TAG 的 节点 的 深度 优先 顺序 。 

方法 : 使 用 图 10-47 中 的 递归 过 程 search (n)， 该 算法 将 G 的 所 有 节点 初始 化 为 “未 访问 ”， 
然后 调用 search (no)， 其 中 no 是 初始 节点 。 


当 我 们 调用 search (n) 时 ,我 们 首先 将 4 标记 be Search os 
为 “已 访问 ”， 以 免 将 n 添加 到 树 中 两 次 。 ee ce ae ; 

aK ，、 、 for n ‘a Hs do 
用 变量 l 记录 G 的 节点 数 ， 并 递减 到 1， 搜 if s 标记 为 “未 访问 ” then begin 
索 时 将 深度 优先 编号 din MBRAPA no W Hiin — s 添 加 到 TT 
T 的 集合 形成 G 的 深度 优先 生成 树 ， 它 们 被 na nm 
称 为 树 边 。 口 dfnin | := i; 

i:= i—1 
例 10.32 考虑 图 10-47。 将 i 置 为 10 并 end; 

调用 search (1). Æ search 的 第 (2) 行 ， 我 们 /下面 是 主 程序 */ 


必须 考虑 节点 1 的 每 个 后 继 。 假 设 我 们 首先 (8) 了 := 空 ; eR */ 

考虑 s = 3。 然 后 我 们 将 边 1=3 添 加 到 树 中 并 。 | eee eee en BE AID 3 

调用 search (3)。 在 search (3) 中 ， 我 们 将 边 (11) search(no) ' 

3 一 4 添加 到 7 中 并 调用 search (4)。 
假设 在 search (4) 中 ,我 们 首先 选择 s = 6。 图 10-47 深度 优先 搜索 算法 

然后 将 边 4 一 6 添加 到 7 中 并 调用 search (6)。 这 又 使 我 们 将 6 一 7 添加 到 7 中 并 调用 search (7)。 

节点 7 有 两 个 后 继 ，4 和 8。 但 是 4 已 经 被 serach (4) 标 记 为 “已 访问 ”， 所 以 s = 4 时 什么 也 不 做 。 

s = 8 时 我 们 将 7 一 8 添加 到 了 中 并 调用 search (8)。 假 设 接 下 来 我 们 选择 s = 10， 将 边 8 一 10 添 加 

到 树 中 并 调用 search (10)。 


现在 10 有 一 个 后 继 7， 但 是 7 已 经 被 标记 为 “已 访问 "， 所 以 在 search (10) 中 ， 我 们 向 下 点 
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到 图 10-47 中 的 步骤 (6)， 置 dfa [10] =10, i= 9。 这 将 结束 对 search (10) 的 调用 ， 所 以 我 们 返回 
到 search(8)。 现 在 我 们 在 search (8) 中 置 = 9， 将 边 8 一 9 添加 到 了 中 并 调用 search (9)。9 惟 一 

的 后 继 节点 1 已 经 被 标记 为 “已 访问 "， 所 以 我 们 置 df [9] =9, i= 8。 然 后 我 们 返回 到 search 

(8)。8 的 最 后 一 个 后 继 3 已 经 标记 为 “已 访问 *"， 所 以 s = 3 时 什么 也 不 做 ， 在 这 一 点 上 , 我 们 已 

经 考虑 了 8 的 所 有 后 继 节 点 ， 所 以 我 们 置 dfn [8] = 8，i= 7， 并 返回 到 search (7)。- 

7 的 所 有 后 继 都 已 经 被 考虑 过 ， 所 以 我 们 置 dfn [7] = 7, i = 6, 并 返回 到 search (6)。 同 样 地 ， 
6 的 后 继 都 已 经 被 考虑 过 ， 所 以 我 们 置 dn [6] = 6，i = 5， 并 返回 到 search (4) 中 。4 的 后 继 3 已 
经 被 访问 过 , 但 是 5 还 没有 被 访问 ， 所 以 我 们 将 4 一 5 添加 到 T 中 并 调用 search (5)， 这 个 过 程 没 
有 任何 调用 ， 因 为 5 的 后 继 7 已 经 被 标记 为 “已 访问 ”。 从 而 ，dfn [5] =5, Bi 置 为 4 并 返回 到 
search (4)。 我 们 已 经 考虑 了 4 的 全 部 后 继 ， 因 此 置 dm [4] =4, i = 3 并 返回 到 search (3)， 然 后 
我 们 置 dfn 13] =3, i= 2 并 返回 到 search (1)。 

最 后 的 步骤 是 在 search (1) 中 调用 search (2)， 置 dfn [2] = 2，i = 1 并 返回 到 search (1), B 
dfn [1] = 1, i = 0。 注意 ， 我 们 选择 的 节点 编号 正好 使 dfn [i ] = i， 但 是 对 于 任意 的 图 ， 不 必 满 
足 该 关系 ， 甚 至 图 10-45 中 图 的 其 他 深度 优先 顺序 也 不 必 满 足 该 关系 。 口 
10.9.2 流 图 的 深度 优先 表示 中 的 边 

当 我 们 构造 流 图 的 dfst 时 ， 流 图 的 边 可 以 分 为 以 下 3 类 : 

1. 树 中 有 从 节点 m 到 m 的 祖先 (可 能 到 m 自身 ) 的 边 。 我 们 称 这 些 边 为 后 退 〈retreating ) 
边 。 如 7 一 4 和 9% 一 1 就 是 图 10-46 中 的 后 退 边 。 有 趣 且 有 用 的 是 ， 如 果 流 图 是 可 约 的 ， 则 后 退 边 
正好 是 流 图 中 的 回 边 ? ， 与 图 10-47 中 步骤 2 访问 后 继 的 顺序 无 关 。 对 于 任意 的 流 图 ， 每 个 回 边 
都 是 后 退 边 ， 尽 管 如 果 这 个 图 是 不 可 约 的 ， 将 会 存在 一 些 不 是 回 边 的 后 退 边 。 

2. 树 中 有 从 节点 m 到 m 的 后 代 的 边 ， 称 为 前 进 边 。dfst 中 所 有 的 边 都 是 前 进 边 。 图 10-46 
中 没有 其 他 的 前 进 边 ， 但 是 如 果 4--*8 是 一 条 边 ， 它 将 属于 这 类 边 。 

3. 在 dfst 中 m 和 互相 不 是 祖先 ， RIERA m>n 为 交叉 边 。 图 10-46 中 ， 边 2 一 3 和 35 一 7 
就 是 这 样 的 边 。 交 叉 边 具有 一 个 重要 特性 : 如 果 我 们 画 dfst 时 ， 节 点 的 儿子 是 从 左 到 右 按照 它 1663 
们 加 入 树 的 顺序 画 出 的 ， 那 么 所 有 的 交叉 边 都 是 从 右 到 左 进行 遍历 的 。 

应 该 注意 的 是 ，m 一 n 是 一 条 后 退 边 当 且 仅 当 dfr [mdf [n]。 在 dfst F, WR m Æ n HY 
Jatt, BBA search (m) 将 在 search (n) 之 前 终止 ， 所 以 dfn [m] 宇 dfn[n]。 相 反 ， 如 果 dfn[m]= 
dfnin], ABA search (m) 将 在 search MZ MRI, RE m = n。 但 是 如 果 存 在 边 mon, REE 
dfst 中 n 是 m 的 后 继 这 个 事实 使 得 成 为 m 的 后 代 , IBA search (n) 一 定 在 search (m) 之 前 开始 。 
因此 search (m) 活 跃 的 时 间 是 search (n) 活 路 的 时 间 的 子 区 间 ， 因 此 在 dfst P 是 m 的 祖先 。 
10.9.3 流 图 的 深度 

流 图 有 一 个 重要 的 参数 称 为 深度 。 给 定 一 个 图 的 深度 优先 生成 树 ， 深 度 是 无 环 路 径 上 后 退 
边 的 最 大 数目 。 


例 10.33 ”在 图 10-46 中 ， 深 度 是 3， 因 为 路 径 10 一 7 一 4 一 3 带 有 3 条 回 退 边 ， 而 且 没 有 无 环 
路 径 带 有 4 条 或 者 更 多 的 回 退 边 。 碰 巧 的 时 ， 这 里 “最 深 的 ”路 径 上 只 有 回 退 边 ， 通 常 最 深 路 
径 可 能 同时 带 有 后 退 边 、 前 进 边 和 交叉 边 。 口 


我 们 可 以 证 明 深度 永远 不 会 大 于 流 图 中 循环 嵌 套 的 深度 。 如 果 流 图 是 可 约 的 ， 我 们 在 定义 








日 ”回想 一 下 ， 回 边 是 那些 头 支 配 尾 的 边 。 


a 
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深度 的 时 候 可 以 用 回 边 代替 后 退 边 ， 因 为 在 dfst 中 ,后退 边 正好 就 是 回 边 。 深 度 的 概念 和 实际 
选择 的 dfst 无 关 。 
10.9.4 KË 

将 流 图 分 解 为 区 间 (interval) 可 以 在 流 图 上 添加 层次 结构 ， 而 该 结构 允许 我 们 应 用 10.5 节 
提出 的 用 于 语法 制导 数据 流 分 析 的 规则 。 

直观 地 ， 流 图 中 的 “区 间 ” 是 自然 循环 加 上 在 该 循环 节点 上 的 无 环 路 结构 。 区 间 的 一 个 重 
要 性 质 是 具有 支配 区 间 中 所 有 节点 的 首 节点 ， 也 就 是 说 ， 每 个 区 间 是 一 个 区 域 。 形 式 地 ， 给 定 
一 个 带 有 初始 节点 mw 的 流 图 G 和 G 的 一 个 节点 n， 首 节点 为 nn 的 区 间 ( 记 为 I(n) ) 定义 如 下 : 

l.n Æ I(m) 中 。 

2. 如 果 某 个 节点 m (mn ATA BSR EE OF, M m A aP. 

3. I(n) 中 没有 其 他 节点 。 

因此 从 n 开始 ,根据 规则 2 添加 节点 m 我 们 就 可 以 建立 I(n)。 按 什么 顺序 添加 两 个 候选 的 
m 无 关 紧 要 ， 因 为 一 旦 某 个 节点 的 前 驱 都 在 I(n) 中 ， 它 们 就 会 在 I(n) 中 ， 而 且 根 据 规则 2， 每 个 
候选 变量 最 终 都 会 被 添加 到 I(n) 中 。 最 后 ,没有 更 多 的 节点 可 以 被 添加 到 ID 中， 节点 的 结果 
集合 是 首 节点 为 n 的 区 间 。 
10.9.5 区 间 划 分 

给 定 任意 的 流 图 G， 我 们 可 以 用 下 述 方法 将 G 划分 为 不 相交 的 区 间 。 


算法 10.15 流 图 的 区 间 分 析 。 

输入 : 带 有 初始 节点 no 的 流 图 G。 

输出 : 流 图 G 的 不 相交 区 间 的 一 个 划分 。 

Ak: 对 任意 的 节点 n, 通过 上 面 概述 的 算法 计算 n): 
I(n) := {n}; 

while 存在 所 有 前 驱 都 在 Im 中 的 


Kn) := 1(n) U {m} 
划分 中 作为 区 间 首 节点 的 特定 节点 按照 下 面 的 方法 进行 选择 。 初 始 时 ， 没 有 节点 是 “被 选 
中 的 ”。 
构造 I(no) 并 “选中 ”该 区 闻 中 的 所 有 节点 ; 
while 存在 一 个 还 没有 “被 选中 的 ”的 节点 m 但 有 一 个 前 驱 节 点 被 选中 的 节点 m do 
构造 Ko 并 “选中 ”该 区 间 中 所 有 的 节点 口 
一 旦 候选 m 具有 一 个 被 选中 的 前 驱 p, m 就 永远 不 能 被 添加 到 某 个 不 包含 p 的 区 间 中 。 TE, 
候选 的 m 一 直 都 是 候选 直到 它们 被 选 作 它们 自己 区 间 的 首 节点 为 止 。 因 而 算法 10.15 中 选择 区 间 
首 节点 m 的 顺序 不 会 影响 最 终 的 区 间 划 分 。 而 且 ， 如 果 所 有 的 节点 从 mm 都 是 可 达 的 ， 对 从 m 到 
n 的 路 径 的 长 度 进行 归纳 可 以 证 明 : 节点 n 最 后 不 是 被 放 到 其 他 节点 的 区 间 中 ， 就 是 成 为 它 自 己 
区 间 的 首 节点 ， 但 两 者 不 能 同时 成 立 。 因 此 ， 由 算法 10.15 构 造 的 区 间 集 合 确实 是 G 的 划分 。 


例 10.34 ”让 我 们 为 图 10-45 寻 找 区 间 划 分 。 我 们 从 构造 1(1) 开 始 ， 因 为 节点 1 是 初始 节点 。 
我 们 可 以 将 2 加 到 I(1)， 因 为 2 的 惟一 前 驱 是 1。 但 是 ， 我 们 不 能 将 3 添加 到 IG) 中 ， 因 为 它 具 有 
不 在 I(1) 中 的 前 驱 4 和 8， 同 样 地 ， 除 1 和 2 之 外 的 每 个 其 他 节点 都 具有 不 在 I(1) 中 的 前 驱 ， 所 以 ， 
1(D) = {1, 2}. 

现在 我 们 可 以 计算 IC3)， 因 为 3 有 一 些 “ 被 选中 的 ”的 前 驱 ， 即 1 和 2， 但 是 3 本 身 不 在 区 间 
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中 。 可 是 , 没有 节点 可 以 被 添加 到 I(3) 中 ， 所 以 3) = {3}。 现 在 ，4 是 一 个 首 节 点 ， 因 为 它 有 
一 个 前 驱 3 在 区 间 中 。 我 们 可 以 将 5 和 6 添加 到 1(4) 中 ， 因 为 它们 只 有 一 个 前 驱 4， 但 是 没有 其 他 
节点 可 以 被 添加 进去 ， 比 如 ，7 有 前 驱 10。 

接 下 来 ，7 成 为 首 节点 ， 我 们 可 以 将 8 添加 到 (7) 中 。 然 后 ,我 们 可 以 将 9 和 10 添 加 进去 ， 
因为 它们 只 有 前 驱 8。 于 是 ， 图 10-45 划 分 的 区 间 为 : 


I(t) = {1,2} 1(4) = (4, 5, 6} 
1(3) = {3} I(7) = {7, 8,9, 10} 口 
1096 Ki 


从 流程 图 G 的 区 间 ， 根 据 下 列 规则 可 以 构造 一 个 新 的 流 图 I(G): 

1. IO) 的 节点 与 G 的 区 间 划 分 中 的 区 间 相 对 应 。 

2. KG) 的 初始 节点 是 包含 G 的 初始 节点 的 G 的 区 间 。 

3. 有 一 条 从 区 间 7 到 不 同 的 区 间 的 边 ， 当 且 仪 当 在 G 中 存在 一 条 从 了 中 某 个 节点 到 J 的 
首 节点 的 边 。 注 意 ， 从 J 的 外 部 不 可 能 有 边 进入 J 的 某 个 不 是 首 节点 的 节点 x ， 因 为 在 算法 
10.15 中 无 法 将 n 添加 到 Po 

交替 使 用 算法 10.15 和 上 述 区 间 图 构造 方法 ， 就 可 以 产生 图 G 的 序列 ，ICG)，IGI(G)) ，…。 
最 后 ， 我 们 会 得 到 一 个 图 ， 该 图 的 每 个 节点 是 一 个 完全 孤立 的 区 间 。 该 图 被 称 作 G 的 限制 流 
图 。 有 趣 的 是 ， 流 图 是 可 约 的 ， 当 且 仅 当 它 的 限制 流 图 是 单个 节点 。。 


例 10.35 对 图 10-45 反 复 应 用 区 间 构 造 方 法 所 得 到 的 结果 如 图 10-48 所 示 。 该 图 的 区 间 已 在 
例 10.34 中 给 出 ， 而 且 从 其 构造 的 区 间 图 如 图 10-48a 所 示 。 注 意 ， 图 10-45 中 的 边 10 一 7 在 图 
10-48a 中 不 会 导致 一 条 从 表示 {7, 8, 9, 10} 的 节点 到 它 自 身 的 边 ， 因 为 区 间 图 构造 方法 明确 地 排 
除了 这 样 的 循环 。 还 要 注意 的 是 ， 图 10-45 中 的 流 图 是 可 约 的 ， 因 为 它 的 限制 流 图 是 单个 节点 。 


CD 
CD 
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a) b) c) d) 
图 10-48 区 间 图 序列 





10.9.7 PATH 

如 果 我 们 获得 一 个 不 是 单个 节点 的 限制 流 图 ， 只 要 将 一 个 或 多 个 节点 分 裂 我 们 就 可 以 继续 
构造 下 去 。 如 果 节 点 n 有 上 个 前 驱 ， 我 们 可 以 用 个 节点 mn，m2，…，r 取代 n。n 的 第 i 个 前 
驱 只 能 成 为 nj; 的 前 驱 ， 而 n 的 所 有 后 继 都 成 为 所 有 ni 的 后 继 。 

如 果 我 们 将 算法 10.15 应 用 到 结果 图 上 ， 则 每 个 n 具有 一 个 惟一 的 前 驱 ， 所 以 它 一 定 会 成 为 
该 前 驱 的 区 间 的 一 部 分 。 从 而 ， 一 个 节点 分 裂 加 上 一 轮 区间 划 分 将 导致 一 个 带 有 更 少 节点 的 图 。 





O 事实 上 ,该 定义 是 历史 上 原来 的 定义 。 


n 
Aa 
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因而 ， 区 间 图 的 构造 (需要 时 可 能 有 散布 的 节点 分 裂 ) 最 终 必 然 会 获得 一 个 只 有 单个 节点 的 图 。 
该 结论 的 重要 性 在 下 一 节 会 更 明显 ， 届 时 我 们 将 利用 这 两 个 图 上 的 操作 来 设计 数据 流 分 析 算 法 。 
例 10.36 考虑 图 10-49a 的 流 图 ， 它 是 其 自身 的 限制 流 图 。 我 们 可 以 将 节点 2 分 裂 成 2 和 2b， 


分 别 带 有 前 驱 1 和 3， 如 图 10-49b 所 示 。 如 果 我 们 应 用 两 次 区 间 划 分 ， 将 会 得 到 图 10-49c 和 
图 10-49d 所 示 的 图 序列 ， 导 致 了 单个 节点 。 口 


AAE™ 


d) 
图 10-49 区 间 划 分 后 的 节点 分 裂 

10.9.8 T-n FAR 

有 一 种 方便 的 办 法 可 以 达到 同 区 间 分 析 同 样 的 效果 ， 即 对 流 图 应 用 两 次 简单 的 变换 : 

Ti: 如 果 半 是 一 个 带 有 循环 的 节点 ， 即 存在 边 nn, MARRA. | 

Tr: 如 果 节 点 n (不 是 初始 节点 ) 具有 惟一 的 前 驱 m, WA m 通过 删除 n 并 将 n 的 所 有 后 
HE (可 能 包括 m) 变 成 m 的 后 继 即 可 消 挤 n。 

下 面 是 关于 TAT 变换 的 一 些 有 趣 的 事实 : 

1. 如 果 我 们 按 任意 顺序 将 T 和 全 应 用 到 流 图 G 上 ， 直 到 产生 一 个 无 法 再 应 用 TR T: H 
流 图 为 止 ， 那 么 结果 将 产生 一 个 惟一 的 流 图 。 原 因 是 即使 先 应 用 了 某 些 TAT, E T 删除 
的 或 者 由 五 消 掉 的 候选 者 仍然 是 候选 者 。 

2. 对 G 彻底 应 用 7 和 丈 所 产生 的 流 图 是 G 的 限制 流 图 。 其 证 明 有 些 琐 碎 ， 留 作 练 习 。 结 
果 ,“ 可 约 流 图 ”的 另 一 个 定义 就 是 可 以 被 7 和 T 转化 为 单个 节点 的 流 图 。 


例 10.37 图 10-50 给 出 了 一 系列 T MT. 变换 ， 这 些 变换 是 从 一 个 对 图 10-49%b 重 命名 的 流 图 
开始 的 。 在 图 10-50b 中 ，c 消 掉 了 d。 注 意 ， 图 10-50b 中 cd 上 的 循环 是 由 图 10-50a 中 的 边 dc 
引入 的 。 在 图 10-50c 中 该 循环 被 Ti 删除 了 。 还 要 注意 ,在 图 10-30d 中 a W4 b UR, Ma lb 


到 节点 cd 的 边 就 成 了 一 个 边 。 口 
Ol Q ©. 
S À Sn " oh ta O” 
O 
668 a) b) c) d) e) 


图 10-50 利用 T, 和 TT 对 流 图 的 化 简 
10.9.9 区 域 
回想 一 下 ， 在 10.5 节 中 ， 流 图 中 的 区 域 (region) 是 含有 一 个 首 节 点 的 一 组 节点 N, AD 
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点 支配 区 域 中 所 有 其 他 节点 。 除 了 (有 可 能 ) 进入 首 节 点 的 边 以 外 ，N 中 节点 间 的 所 有 边 都 在 
区 域 中 。 例 如 ， 每 个 区 间 是 一 个 区 域 ， 但 存在 不 是 区 间 的 区 域 ， 例 如 ， 因 为 它们 可 能 删除 了 某 
些 区 间 要 包含 的 节点 或 者 某 些 回 到 首 节点 的 边 。 正 如 我 们 将 要 看 到 的 ， 还 有 一 些 区 域 比 任何 区 
间 都 要 大 。 

FAT, 和 7 化 简 流 图 G 时 ， 下 列 条 件 一 直 为 真 : 

1. 一 个 节点 代表 G 的 一 个 区 域 。 

2. 一 条 从 a 到 b 的 边 代表 一 组 边 ， 每 条 这 样 的 边 都 是 从 a 所 表示 的 区 域 中 的 某 个 节点 指向 
b 所 表示 的 区 域 的 首 节 点 。 

3. G 中 每 个 节点 和 每 条 边 正好 由 当前 图 中 的 一 个 节点 或 一 条 边 代表 。 

要 理解 为 什么 这 些 结论 是 正确 的 ， 首 先 请 注意 ,对 G 本 身 它 们 一 般 是 成 立 的 。 每 个 节点 本 
身 是 一 个 区 域 ， 每 条 边 只 代表 它 自己 。 假 设 我 们 对 代表 区 域 R 的 某 节 点 n 应 用 T, mi n> 
n 代表 某 组 边 E，E 中 每 条 边 一 定 进 入 R 的 首 节点 。 如 果 我 们 将 边 E 加 入 区 域 R 中 ，R 仍然 是 
一 个 区 域 ， 所 以 删除 边 nn 之 后 ， 节 点 n 代表 RR 和 EE 中 的 边 ， 从 而 上 述 条 件 1 至 条 件 3 成 立 。 

如 果 我 们 使 用 T, MHA a 消 掉 节点 bp， 令 a 和 5 分别 代 表 区 域 R 和 5S。 同样 ， 令 EE 为 边 
a 一 5 所 代表 的 那 组 边 。 我 们 断言 R，5 和 E 合 起 来 形成 一 个 区 域 ， 其 首 节点 是 R 的 首 节 点 。 
为 了 证 明 这 一 点 ， 我 们 必须 验证 R 的 首 节点 支配 5 中 的 每 一 个 节点 ， 和 否则 ， 必 须 存在 一 条 通 
向 S 的 首 节点 的 路 径 ， 而 且 该 路 径 不 以 E 中 的 边 为 结束 。 那 么 该 路 径 的 最 后 一 条 边 在 当前 流 
图 中 只 能 由 进入 5b 的 某 条 其 他 边 代表 。 但 不 存在 这 样 的 边 ,或 者 说 不 能 用 工 消 掉 b。 


例 10.38 ”图 10-50b 中 标记 为 cd 的 节点 代表 图 10-51a 所 示 的 区 域 ， 它 是 通过 由 c 消 掉 d 所 
形成 的 。 注 意 ， 边 d-*c 不 是 该 区 域 的 一 部 分 ; 图 10-50b 中 ，cd 土 的 循环 代表 这 条 边 。 但 是 ， 图 


10-50c 中 ， 边 cd 一 cd 已 经 被 删除 ， 现 在 节点 cd 代表 图 10-51b 
所 示 的 区 域 。 ©) e ©) 
图 10-50d 中 ， 节 点 cd 仍然 代表 图 10-51b 的 区 域 ， 而 节点 ab 四 O O 
a) b) c) 


代表 图 10-51c 的 区 域 。 图 10-50d 中 的 边 ab>cd 代表 图 10-50a 中 
原始 流 图 的 边 ac 和 5b 一 c。 当 我 们 应 用 T: 得 到 图 10-50e 时 ， 
剩 下 的 节点 代表 整个 流 图 ， 即 图 10-$0a。 口 图 10-51 一 些 区域 


我 们 应 该 注意 ， 上 面 提 到 的 7 和 T 变换 的 性 质 对 区 间 分 析 仍 然 成 立 。 下 面 的 事实 留 作 练 
习 : 当 我 们 建立 IG)，I((G))，… 时 ， 这 些 图 中 的 每 个 节点 代表 一 个 区 域 ， 每 条 边 代 表 一 组 满 
足 上 述 性 质 2 的 边 。 
10.9.10 寻找 支配 节点 

我 们 用 一 个 高 效 的 算法 来 结束 这 一 节 ， 该 算法 涉及 一 个 我 们 经 常 使 用 的 概念 ， 在 研究 流 图 
理论 和 数据 流 分 析 时 我 们 还 要 继续 使 用 它 。 基 于 下 面 的 原理 ， 我 们 将 给 出 一 个 简单 的 算法 来 
计算 流 图 中 每 个 节点 n 的 支配 节点 : 如 果 p,，p2，…，pi 是 a 的 所 有 前 驱 并 且 dxn, BA a 
dom n 当 且 仅 当 对 每 个 i，d dom Pi 。 该 方法 和 把 交 运 算 作 为 聚合 操作 符 的 前 向 数据 流 分 析 
(如 可 用 表达 式 ) 相似 ， 那 时 我 们 取 n 的 支配 节点 集 的 近似 值 ， 并 通过 反复 地 依次 访问 所 有 这 
些 节点 来 对 其 求 精 。 

现在 ,我 们 选择 的 初始 近似 值 含有 只 被 初始 节点 支配 的 初始 节点 ， 除 初始 节点 以 外 ， 所 有 
的 节点 都 互相 支配 。 直 观 地 ， 该 方法 之 所 以 正确 ， 是 因为 只 有 当 我 们 找到 一 条 可 以 证 明 m 
dom n 为 假 的 路 径 时 ， 才 能 将 那个 候选 支配 节点 排除 。 如 果 我 们 不 能 找到 这 样 一 条 从 初始 节点 
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到 nn 并 排除 m 的 路 径 ， 那 么 m 就 确实 是 n 的 支配 节点 。 


算法 10.16 寻找 支配 节点 。 
输入 : 流 图 G， 带 有 节点 集合 N， 边 集合 E 和 


初始 节点 ms 
/# 初始 化 完毕 */ 


输出 ; 关系 dom, 必 
、 、 、 3) whi nn) 发 生变 0 
方法 : 重复 使 用 图 10-52 中 的 过 程 来 计算 DD， | Se ee nie do 


Bhan 的 支配 节点 集 。 过 程 结 束 时 ,4 在 D (中 当 (5) Din) := {a}U N D); 


n to Ry sep 












D (no) := {no}; 
(2) for N- {m} in do D (n) := N; 








且 仅 当 d dom mn。 至 于 如 何 检测 D(n) 发 生 了 变化 ， 
读者 可 以 参照 算法 10.2 给 出 其 详细 描述 。 口 图 10-52 支配 节点 计算 算法 


可 以 证 明 图 10-52 中 第 (5) 行 计算 出 的 Dn) 始终 是 当前 DO) 的 子 集 。 因 为 Dm) 不 能 无 限 地 
变 小 ， 最 后 我 们 一 定 能 终止 while HP. KAZE, Dn) 是 n 的 支配 节点 集 的 证 明 留 给 感 兴趣 
的 读者 。 图 10-52 中 的 算法 效率 非常 高 ， 因 为 D(n) 可 以 用 一 个 位 向 量 表示 ， 而 且 第 (5) 行 中 的 集 
合 操作 可 以 用 逻辑 运算 and 和 or 来 实现 。 口 


例 10.39 ”让 我 们 回 到 图 10-45 的 流 图 中 ， 并 假设 在 第 (4) 行 的 for 循环 中 节点 是 按 数 字 顺 序 
访问 的 。 节 点 2 只 有 前 驱 1， 所 以 D(2):=(2} UD(1)。 因 为 1 是 初始 节点 ，D(1) 在 第 (1) 行 被 赋值 为 
{1}。 从 而 ，D(2) 在 第 (5) 行 被 置 为 {1,2})。 

然后 考虑 节点 3， 它 带 有 前 驱 1，2，4 和 8。 第 (5) 行 给 出 D(3) = {3}UC1}N {1, 2} 站 {1,2,…， 
10) = {l,3}。 剩 下 的 计算 是 : 

D(4) = {44 U (DB) N DOD = {44 U 1,3} NA {1,2,..., 10}) = {1,3,4} 
D(5) = {5} U D(4) = {5} U {1,3,4} = {1,3,4,5} 
D(6) = {6} U D(4) = {6} U {1,3,4} = {1,3,4,6} 
D(1) = {7} U (D(5) N D(6) N D(10)) 
= {7} U ({1,3,4,5} N {1,3,4,6} N {t,2,..., 10) = {1,3,4,7} 
D(8) = {8} U D(7) = {8} U {1,3,4,7} = {1,3,4,7,8} 
D (9) = {9} U D(8) = {9} U {1,3,4,7,8} = {1,3,4,7,8,9} 
D(10) = {10} U D(8) = {10} U {1,3,4,7,8} = {1,3,4,7,8, 10} 


可 以 看 出 ，while 循环 的 第 二 遍 没 有 改变 D， 于 是 上 面 的 值 输出 关系 dom, 口 
10.10 高 效 数据 流 算法 


本 节 考 虑 两 种 使 用 流 图 理论 加 快 数 据 流 分 析 的 方法 。 第 一 种 方法 使 用 深度 优先 遍历 减少 
10.6 节 中 算法 的 迭代 次 数 ， 第 二 种 方法 使 用 区 间或 者 也 、T 变换 实现 10.5 节 的 语法 制导 方法 。 
10.10.1 和 迭代 算法 中 的 深度 优先 顺序 

至 此 ， 在 所 有 已 研究 问题 中 ， 某 个 节点 的 到 达 定 义 、 可 用 表达 式 或 者 活 牙 变量 等 信息 都 是 
沿 一 条 无 环 路 径 传播 到 该 节点 的 。 例 如 ， 定 义 a 在 in[B] 中 ， 则 存在 从 包含 d 的 块 到 达 B 的 无 
HR, FE d 存在 于 该 路 径 上 的 所 有 节点 的 in 和 ou 中 。 同 样 地 ， 如 果 表 达 式 x+y FER B 
的 人 口 点 是 不 可 用 的 ， 则 存在 一 条 这 样 的 无 环 路 径 : 要 么 该 路 径 从 初始 节点 开始 且 不 包含 任何 
注销 或 产生 x+y 的 语句 ， 要 人 么 该 路 径 从 一 个 注销 x+y 的 块 开 始 ， 而 且 该 路 径 上 不 再 产生 x+y。 
最 后 ,对 于 活路 变量， 如果 x 在 块 B 的 出 口 是 活 跃 的 , 则 存在 一 条 从 B 到 x 的 引用 的 无 环 路 径 ， 
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该 路 径 上 没有 对 x 的 定义 。 

读者 可 能 发 现 ， 在 各 种 情况 下 ， 路 径 上 带 有 环 路 不 会 产生 什么 影响 。 例 如 ， 如 果 从 块 B 的 
末尾 沿 着 一 条 有 环 路 径 到 达 x 的 引用 ， 可 以 删除 该 环 以 找 出 一 条 更 短 的 路 径 ， 沿 该 路 径 从 B 仍 
然 可 以 到 达 x 的 引用 。 

如 果 所 有 的 有 用 信息 都 是 沿 无 环 路 径 传播 , 就 可 以 修改 迭代 数据 流 算法 中 访问 节点 的 顺序 ， 
以 便 在 较 少 的 几 次 遍历 之 后 ， 就 可 以 确定 信息 已 经 经 过 所 有 的 无 环 路 径 。 特 别 地 ，Knuth 
[1971b] 搜 集 的 统计 信息 指出 : 典型 的 流 图 都 具有 非常 低 的 区 间 深 度 ， 其 中 ， 区 间 深 度 是 指 为 
得 到 限定 流 图 需要 应 用 区 间 划 分 的 次 数 ， 结 果 发 现 平 均 次 数 是 2.75。 定 义 “深度 ”是 后 退 边 最 
多 的 无 环 路 径 上 的 后 退 边 的 最 大 数目 (如果 流 图 是 不 可 约 的 ， 深 度 依赖 于 所 选 的 深度 优先 生成 
树 )。 可 以 证 明 流 图 的 区 间 深 度 永远 不 会 比 “ 深 度 ” 小 。 

回想 上 一 节 关 于 深度 优先 生成 树 的 讨论 ， 我 们 注意 到 如 果 a 一 b 是 边 ， 那 么 只 有 当 该 边 是 
后 退 边 时 ,b 的 深度 优先 编号 才 比 a 的 编号 小 。 因 而 用 下 面 的 语句 代替 图 10-26 中 的 第 (5) 行 ， 
该 行 访问 流 图 中 的 每 个 块 8 来 计算 到 达 定 义 : 

for 深度 优先 顺序 中 的 每 个 块 B do 

假设 存在 一 条 传播 定义 4 的 路 径 : 


3 一 5 一 19 一 35 一 16 一 23 一 45 一 4 一 10 一 17 


其 中 ， 整 数 表示 该 路 径 上 块 的 深度 优先 编号 。 第 一 次 通过 图 10-26 中 第 (5) 至 (9) 行 的 循环 时 ，4 
会 从 orvl[3] 传 播 到 in[5]， 再 传播 到 out[$1， 依 此 类 推 ， 一 直到 达 out[35]。 因 为 深度 优先 编号 16 
在 35 之 前 ， 所 以 将 d 放 进 out[35] 时 已 经 计算 了 in[16]， 因 此 本 次 循环 中 ，4d 不 会 到 达 zf16]。 然 
而 ,下 一 次 在 执行 第 (5) 至 (9) 行 的 循环 中 计算 infot, d 因为 在 ou[35] 中 而 被 包含 进来 。 定 
Md 还 会 传播 到 out[16]、in[23] 等 ， 一 直到 out[45]。 因 为 in[4] 已 经 补 计 算 ， 本 次 循环 结束 。 在 
PRP, d 传播 到 in[4]，out[4]，in[10]，out[10] 和 im[17]。 经 过 三 遍 循环 之 后 ， 我 们 确定 定 
X d BTL BARAT, © 

从 该 例 可 以 很 容易 地 得 到 一 个 普遍 原理 。 如 果 在 图 10-26 中 应 用 深度 优先 顺序 ， 那 么 沿 无 
环 路 径 传播 到 达 定 义 所 需要 的 遍 数 不 会 超过 后 退 边 个 数 加 1。 后 退 边 是 指 沿 该 路 径 从 编号 高 的 
块 到 编号 低 的 块 所 经 过 的 边 。 所 以 所 需 的 遍历 次 数 是 深度 加 1。 当 然 ， 算 法 10.2 没 有 发 党 这 样 
的 事实 ， 即 所 有 的 定义 已 经 到 达 了 它们 所 能 到 达 的 地 方 。 使 用 深度 优先 顺序 的 算法 遍 数 的 上 界 
实际 上 是 深度 加 2。 如 果 我 们 相信 Knuth[1971b] 的 结果 ， 则 遍历 次 数 是 深度 加 5。 

深度 优先 顺序 对 可 用 表达 式 ( 算法 10.3 ) 计算 或 通过 前 向 传播 解决 数据 流 问 题 的 方法 都 很 
有 利 。 对 于 活跃 变量 问题 (通过 向 后 传播 解决 )， 如 果 选 择 深度 优先 顺序 的 逆序 ， 遍 历次 数 的 
平均 值 可 以 达到 5 遍 。 从 而 ， 只 需 一 遍 即 可 将 块 17 中 的 变量 引用 沿 如 下 路 径 向 后 传播 到 inf[4] 

3 一 和 一 19 一 35 一 16 一 23 一 45 一 4 一 10 一 17 
至 此 ， 为 到 达 out[f45] 我 们 必须 等 待 下 一 遍 。 在 第 二 遍 中 ， 块 17 的 变量 引用 将 到 达 in[16]。 第 三 
MA out[35] 到 达 oxt[3]。 一 般 地 ， 如 果 我 们 选择 按 深 度 优先 顺序 的 逆序 访问 节点 ， 使 得 在 一 遍 
中 沿 着 编号 递减 的 顺序 进行 传播 ， 则 深度 加 1 遍 足 以 将 变量 的 引用 沿 任意 无 环 路 径 向 后 传播 。 
10.10.2 基于 结构 的 数据 流 分 析 

再 加 一 点 劲 ， 我 们 就 可 以 实现 下 面 的 数据 流 算法 : 它 访问 节点 (并且 应 用 数据 流 方程 ) 的 
次 数 不 会 大 于 流 图 的 区 间 深 度 ， 且 访问 节点 的 平均 次 数 往往 比 区 间 深 度 小 得 多 。 做 更 多 的 努力 


O 定义 4 还 到 达 outf17], 但 这 与 正 被 讨论 的 路 径 无 关 。 








n 
No 


a 
U 
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能 否 节省 更 多 的 次 数 ” 就 此 还 没有 得 到 严格 的 证 实 , 但 是 像 这 种 基于 区 间 分 析 的 技术 已 经 被 用 
在 若干 编译 器 中 。 此 外 ， 这 里 所 提出 的 思想 不 仅仅 可 以 应 用 在 10.5 节 讨论 的 证 …then 和 do… 
while 语句 上 ， 也 可 以 应 用 在 对 各 种 结构 化 控制 语句 的 语法 制导 数据 流 算法 中 ， 这 些 已 经 出 现 
在 许多 编译 器 中 。 

我 们 的 算法 是 基于 在 流 图 上 应 用 TA 7 变换 导出 的 结构 上 。 和 10.5 节 一 样 ， 我 们 关心 的 
是 控制 流通 过 一 个 区 域 时 产生 或 注销 的 定义 。 和 通过 if 或 while 语句 定义 的 区 域 不 同 ， 普 通 的 
区 域 可 以 有 多 个 出 口 ， 所 以 对 于 区 域 R 中 的 每 个 块 8， 我 们 要 计算 从 区 域 首 节点 到 块 B 末 尾 的 
路 径 上 所 产生 和 注销 的 定义 集合 genr s 和 killx.s 。 这 些 集合 将 用 于 定义 转移 函数 transr s (5)。 
对 任意 的 定义 集合 S， 给 定 S 中 到 达 R 首 节点 的 所 有 定义 ，transr, (5) 将 告诉 我 们 什么 样 的 定 
义 集合 会 沿 着 R 中 的 路 径 到 达 块 BIKE. 

正如 我 们 在 10.5 节 和 10.6 节 所 看 到 的 ， 到 达 块 8 末尾 的 定义 分 为 以 下 两 类 : 

1. 在 R 中 产生 并 传播 到 块 B 未 尾 的 与 5 无 关 的 定义 。 

2. 不 是 在 R 中 产生 的 定义 ,但 是 也 没有 在 R 的 首 节点 到 块 B 末尾 的 路 径 中 被 注销 ， 因 此 
它们 在 transxr.s(5) 中 当 且 仅 当 它们 在 5S 中 。 

从 而 我 们 可 以 写 出 下 面 形式 的 trans: 

transp B(S) = gengp U (S—kille.g) 


算法 的 核心 是 为 流 图 的 某 个 (Ti, T) 分 解 所 定义 的 逐渐 变 大 的 区 域 计 算 ransreo AA, E 
设 流 图 是 可 约 的 ， 对 算法 施加 简单 的 改变 即 可 应 用 到 不 可 约 流 图 。 
起 点 是 由 单个 块 B 构成 的 区 域 。 此 时 ， 区 域 的 转移 函数 就 是 块 本 身 的 转移 函数 ， 因 为 一 个 
定义 到 达 块 的 末尾 当 且 仅 当 它 或 者 是 该 块 产生 的 ， 或 者 在 集合 S 中 没有 被 注销 。 也 就 是 说 : 
geng p = genlB]} 
killg a = kill|B} 


ME, FEA TPT KR, EREB, R 消 掉 R, 形 成 R， 如 图 10-53 所 示 。 首 先 注意 到 ， 
因为 任何 从 Ro 到 Ri 首 节 点 的 边 都 不 属于 R， 所 以 在 区 域 R 中 没有 RB R 的 后 退 边 。 任 何在 R 
中 的 路 径 都 首先 ( 可 选择 地 ) 穿 过 Ri ， 然 后 ( 可 选择 地 ) 穿 过 R, ， 但 不 能 再 返回 Ro KEE 
意 ，R 的 首 节 点 是 R 的 首 节点 。 我 们 可 以 断定 : 在 R 中 ，R;, 不 会 影响 Ri 中 节点 的 转移 函数 。 
也 就 是 说 ， 对 R 中 所 有 的 BB， 下列 式 子 成 立 : - 

BENRB T BENR.B 


KR g = killR ,8 


对 Ro PAY B， 满 足下 面 任何 一 个 条 件 的 定 
义 都 能 到 达 B 的 末尾 : A 

1. 定义 是 在 R; 中 产生 的 。 | 

2. 定义 是 在 Ri 中 产生 并 到 达 R; 首 节点 的 图 10-53 使 用 九 构 造 的 区 域 
某 个 前 驱 节 点 的 未 尾 ， 而 且 在 R; 的 首 节点 到 B 的 路 径 上 没有 注销 。 

3. 定义 属于 Ri 首 节 点 的 定义 集合 5， 在 到 达 局 首 节点 的 某 个 前 驱 时 没有 被 注销 ， 而 且 从 
RAH WAZ B 的 路 径 上 也 没有 被 注销 。 

所 以 ， 能 够 到 达 Rs 首 节 点 的 前 驱 块 ( 位 于 Ri 中 ) 未 尾 的 定义 起 着 特殊 的 作用 。 本 质 上 ， 
假设 $ 是 进入 Ri 首 节点 的 定义 集合 ， 当 8 中 的 定义 试图 通过 R; 首 节点 的 一 个 前 驱 到 达 R KY 
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点 时 ， 我 们 关心 定义 集合 5 所 发 生 的 变化 。 到 达 R; 首 节点 某 个 前 驱 的 定义 集合 成 为 R 的 输入 
集合 ， 我 们 对 该 集合 应 用 Rz 的 转移 函数 。 
TH, $ G 为 Ri 首 节点 的 所 有 前 驱 P 的 genr, r WHR, HO KHAM P AY kill, p 
的 交集 。 那 么 如 果 § 是 到 达 Ri 首 节 点 的 定义 集合 ， 沿 着 R 中 的 路 径 到 达 R; 首 节点 的 定义 集合 
就 是 G U (S-K). A, XF REJI B 在 R 中 的 转移 函数 可 以 通过 下 式 计算 : 
geng a = Rene, B U (G —killg, g) 
Re = killg, » U (K —genp, 5) 


接 下 来 ， 考 虑 通过 在 区 域 R 应 用 变换 T 建 
立 区域 R 的 情况 。 一 般 情况 如 图 10-54 所 示 ， 注 
意 , 通过 对 R 加 上 一 些 指 向 Ri 首 节 点 (当然 
也 是 R 的 首 节点 ) 的 回 边 形成 区 域 R。 正 如 我 
们 在 本 节 前 面 所 讨论 的 ， 穿 过 首 节点 两 次 的 路 E 
径 会 成 为 环 路 ， 但 在 这 里 我 们 无 需 考 虑 环 路 。 图 10-54 用 工 建 立 的 区 域 
于 是 ， 所 有 在 块 B 末尾 产生 的 定义 都 通过 下 面 两 种 方式 之 一 产生 :; 

1. 定义 在 Ri 中 产生 ， 并 且 为 了 到 达 块 8 的 末尾 不 需要 合并 到 R 中 的 回 边 。 

2. 定义 在 Ri 中 的 某 处 产生 ， 经 过 一 条 回 边 到 达 首 节点 的 一 个 前 驱 ， 并 且 在 首 节点 到 8 的 
传播 中 没有 被 注销 。 

如 果 我 们 令 G 为 R 中 首 节点 所 有 前 驱 P 的 gen, pK, 那么 


genga = genga U (G -kilir B) 


一 个 定义 从 首 节点 传播 到 B 时 被 注销 当 且 仅 当 它 在 所 有 的 无 环 路 径 上 都 被 注销 ， 所 以 合并 
到 R 中 的 回 边 不 会 导致 更 多 的 定义 被 注销 ， 即 : 


killg B = killp 8 
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分 解 如 图 10-55 所 示 ， 图 中 是 带 有 命名 的 分 解 的 区 域 。 在 图 (| 

10-56 中 还 给 出 了 假定 的 位 向 量 ， 用 来 表示 三 个 定义 以 及 它们 > 

在 图 10-55 的 各 个 块 中 是 否 被 产生 或 注销 。 © Cr 
从 里 向 外 考察 图 10-55。 开 始 注意 到 ， 单 节点 区 域 (分 别 

PRA, B, C MD) 的 gen 和 Kill 如 图 10-56 所 示 。 然 后 继续 考 (D) 

察 区 域 R，R 通过 在 C 上 应 用 TKH DER. WE 五 的 规则 ， 

我 们 注意 到 对 于 C, gen 和 kill 没有 发 生 改 变 ， 即 : 


geng,c = genc.c = 000 图 10-55 流 图 的 分 解 
ARCc 三 kille,c = 010 
对 于 节点 D， 必 须 在 区 域 C 中 找 出 区 域 D 首 节点 所 有 前 驱 的 
gen 的 并 集 。 当 然 ， 区域 D 的 首 节 点 就 是 节点 D， 而 且 区 域 C 
中 只 有 该 首 节点 的 一 个 前 驱 ， 即 节点 C。 因 此 ， 


geng p = genp p U (gencc 一 kip p) = 001+(000—000) = 001 
killr p = killp p U (kille c—genp p) = 000+(010—001) = 010 





. 图 10-56 图 10-55 中 块 
现在 ， 利 用 TAKIR R 构造 区 域 So kil 没有 发 生 改 变 ， 的 gen 和 kill 信息 
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所 以 有 


killsc = Re = 010 
kills p = KR p = 010 


为 计算 S 的 gen， 我 们 注意 到 ， 指 向 S 首 节点 并 从 尺 合 并 到 S 中 的 惟一 回 边 就 是 边 DC。 因 此 ， 


gensc = geng c U (geng p— kilir c) = 000+(001—010) = 001 
gens pn = gengp U (geng p—killr p) = 001 +(001—010) = 001 


对 区 域 了 的 计算 类 似 于 对 区 域 的 计算 ， 于 是 得 到 


genr a = 100 
killpa = 010 
genre = 010 
kill; g = 101 


最 后 , 计算 区 域 VU， 即 整个 流 图 的 gen 和 kill。 因 为 U 是 在 T 通过 变换 T 消 掉 5 时 形成 的 ， 
所 以 节点 A A BAS gen 和 kill 值 与 上 面 给 出 的 值 相同 ,并 未 改变 。 对 于 C 和 D， 注 意 到 5 的 
首 节 点 ， 即 节点 C， 在 区 域 了 中 有 两 个 前 驱 4 和 B 。 所 以 ， 可 以 计算 

G = genra U genrs = 110 

K = killpa N killrg = 000 
然后 计算 

geny c = gensc U (G—kills c} = 101 

killy ç = killsc U (K —genş,c) = 010 

genu p = gens p U (G—kills yp) = 101 

killy p = kills p U (K —gens yp) = 010 口 

我 们 已 经 为 每 个 块 中 计算 出 了 genus 和 killu.s, RPU 是 整个 流 图 构成 的 区 域 ， 实 质 上 我 
们 已 经 为 每 个 块 B 计算 出 了 out[B]。 也 就 是 说 ， 如 果 考 察 transv. a(S) = genuaU (S- killv.a) 的 
定义 ， 会 看 到 transu s (GO 正好 是 ow[B1。 但 transu s (©) = genvs ， 于 是 ， 基 于 结构 的 到 达 定 义 
算法 的 实现 就 是 将 gen FAYE out， 并 且 通 过 求 前 驱 的 our 的 并 集 来 计算 in. RRA LAR 
为 以 下 算法 。 

算法 10.17 基于 结构 的 到 达 定 义 。 

输入 ; TARA G 以 及 G 中 每 个 块 B 的 定义 集合 gen[B] 和 kill[B]。 

输出 : 每 个 块 8 的 in[B]。 

Bik: 

1. 找 出 G 的 (Ti, Tr) 分 解 。 

2. Xa PA ETS KR, 从 内 向 外 计算 R 中 每 个 块 B gene. s kille go 

3. WRU 是 整个 图 构成 的 区 域 的 名 字 ， 那 么 对 每 个 块 B， 置 in[B] 为 块 B 所 有 前 驱 P 的 
genu r WHE, o 
10.10.3 对 基于 结构 的 算法 的 一 些 速度 上 的 改进 

首先 ， 如 果 存 在 一 个 转移 函数 G U(S-K), BAM K PRR G 的 某 些 成 员 不 会 改变 该 函 
数 。 因 此 ， 当 我 们 应 用 歼 时 ， 不 是 用 如 下 公式 : 

geng g = geng, s U (G — killg, g) 


killk g = killk,,B U (K 一 gene, 5) 
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而 是 用 下 面 的 公式 代替 上 面 的 第 二 个 公式 : 


killas = killr, g UK 


这 样 ， 区 域 R PAE SRR LAA TRE. 

另 一 个 有 用 的 想法 是 ， 因 为 惟一 的 一 次 应 用 T 的 操作 ， 发 生 在 先 用 Ri 消 掉 了 某 个 区 域 R 
之 后 ， 并 且 存 在 一 些 从 R; 到 R 首 节点 的 回 边 ， 所 以 ， 不 必 先 用 7. 操作 改变 R 而 后 再 用 OT. 操 
作 改 变 Ri 和 R, ， 而 是 通过 执行 如 下 操作 ， 合 并 这 两 组 改变 : 

1. 使 用 五 规则 ， 计 算 RR 首 节点 的 所 有 前 驱 节 点 的 新 的 转移 函数 。 

2. 使 用 7 规则 ， 计 算 Ri 中 所 有 节点 的 新 的 转移 函数 。 

3. 使 用 TT 规则 ,计算 R 中 所 有 节点 的 新 的 转移 函数 。 注 意 ， 应 用 T 的 反馈 已 经 到 达 R 
的 前 驱 并 利用 T; 规 则 传 到 了 Rs 的 所 有 节点 ， 所 以 不 必 再 对 R; 应 用 T 规则 。 

10.10.4 处理 不 可 约 流 图 

如 果 对 流 图 的 (ZT, Tr) 化 简 终止 在 一 个 非 单个 节点 的 限制 流 图 上 ， 那 么 必须 执行 节点 分 裂 。 
分 裂 限制 流 图 的 一 个 节点 对 应 着 复制 该 节点 表示 的 整个 区 域 。 例 如 ， 图 10-57 的 流 图 中 ， 原 有 
的 9 个 节点 被 T| 和 工分 解 成 由 边 连接 的 三 个 区 域 ， 图 10-57 中 给 出 了 对 其 执行 节点 分 烈 的 结果 。 

正如 上 一 节 所 提 到 的 ， 依 次 进行 节点 分 裂 和 化 简 ， 流 图 一 定 可 以 简约 成 单个 节点 。 分 裂 的 
结果 是 ， 原 始 流 图 的 某 些 节点 在 单个 节点 表示 的 区 域 中 存在 多 个 副本 。 稍 加 改变 即 可 将 算法 
10.17 应 用 在 该 区 域 上 。 惟 一 的 不 同 是 : 分 裂 一 个 节点 时 ， 在 分 裂 节点 表示 的 区 域 中 原 图 中 节 
点 的 gen 和 kill 必须 被 复制 。 例 如 ， 在 图 10-$7 中 ， 左 图 两 节点 区 域 中 的 节点 的 gen 和 kill RB 
制 到 右 图 的 所 有 两 节点 区 域 的 相应 节点 上 。 最 后 ， 当 计算 所 有 节点 的 in 时 ， 如 果 在 分 裂 的 区 
域 图 中 ， 同 一 个 原 图 节点 存在 多 个 代表 ， 则 通过 求 其 所 有 代表 的 in 的 并 集 来 计算 它们 的 in 值 。 





图 10-57 不 可 约 流 图 的 分 裂 


在 最 坏 的 情况 下 ， 节 点 分 裂 可 能 导致 所 有 区 域 的 节点 总 数 呈 指数 增长 。 因 而 ， 如 果 预 计 存 
在 许多 不 可 约 流 图 ， 则 不 应 该 使 用 基于 结构 的 方法 。 幸 运 的 是 ， 不 可 约 流 图 非常 少 ， 通 常 可 以 
忽略 节点 分 裂 的 开销 。 


10.11 一 个 数据 流 分 析 工 具 


如 前 所 述 ， 许 多 数据 流 问 题 都 有 很 大 的 相似 性 。10.6 节 的 数据 流 方程 的 区 别 为 ; 

1. 所 用 的 转移 函数 ， 其 形式 均 为 f(X) = A U(X - B)。 例 如， 对 到 达 定 义 来 说 ，A = kill, 
B= gen. 

2. 迄今 为 止 ， 所 有 的 聚合 操作 符 都 是 并 或 交 。 

3. 信息 的 传播 方向 : 前 向 或 后 向 。 

因为 区 别 不 大 ， 使 得 所 有 问题 可 以 按照 统一 的 方法 进行 处 理 。 在 Kildall[1973] 中 给 出 了 一 
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种 这 样 的 方法 。Kildall 还 实现 了 一 个 简化 数据 流 问 题 的 工具 ， 并 应 用 到 一 些 编译 器 项 目 中 。 但 
是 ， 也 许 因为 该 系统 节省 的 劳动 量 没有 语法 分 析 器 的 生成 器 所 节省 的 劳动 量 多 ， 该 系统 并 没有 
得 到 广泛 应 用 。 但 是 ， 它 提出 了 一 种 简化 优化 编译 器 实现 的 方法 ， 并 且 它 有 助 于 统一 本 章 的 各 
种 思想 ， 因 此 我 们 应 当知 道 它 能 够 做 些 什么 。 此 外 ， 本 节 介 绍 如 何 开 发 更 强大 的 数据 流 分 析 筑 
BS, 它们 比 上 有 前 为 此 提 到 的 算法 能 提供 更 加 精确 的 信息 。 
10.11.1 数据 流 分 析 框 架 

下 面 描 述 前 向 传播 问题 的 建 模 框架 。 如 果 只 考虑 求解 数据 流 问 题 的 迭代 形式 ， 则 流 的 方向 
没有 区 别 。 将 边 的 方向 反 转 过 来 ， 并 对 初始 节点 的 估计 做 一 些 较 小 的 调整 ， 则 可 将 后 向 问题 转 
换 成 前 向 问题 。 因 为 可 约 流 图 的 反 转 不 必 是 可 约 的 ， 所 以 基于 结构 的 算法 不 能 按照 同样 的 方法 
解决 前 向 和 后 向 问题 .我 们 将 后 向 问题 的 处 理 留 作 练习 ， 主 要 集中 处 理 前 向 问题 。 

一 个 数据 流 分 析 框 架 由 以 下 内 容 组 成 ; 

1. 一 个 需要 传播 的 值 集合 VY。 和 out 的 值 都 是 V 的 成 员 。 

2. 从 VY 到 YY 的 转移 函数 集合 下 。 

3. 集合 V 上 的 二 进 制 与 (meet ) 操作 A ， 用 来 代表 聚合 操作 符 。 


例 10.41 ”对 于 到 达 定 义 ，VY 由 该 程序 中 的 定义 集合 的 所 有 子 集 组 成 。 集 合 F 是 形 如 f (X) = 
A U (X-B) 的 所 有 函数 的 集合 ， 其 中 ，A 、B 是 定义 集合 ， 即 V 的 成 员 。A 和 B 分 别 是 代表 
gen 和 kill。 最 后 ， 操 作 八 代表 并 操作 。 

对 于 可 用 表达 式 , V 由 该 程序 计算 出 的 表达 式 集合 的 所 有 子 集 组 成 ，F 是 形 如 了 (00)=AU 
X-B) 的 表达 式 的 集合 ， 此 时 ，A 和 8B 是 表达 式 集合 。 操 作 人 为 交 操 作 。 口 


例 10.42 ”尽管 处 理 复杂 问题 时 ， 时 间 复 杂 性 和 难度 都 会 增加 ，Kildall 的 方法 并 不 局 限于 
处 理 简 单 的 问题 。 该 练习 将 给 出 强 有 力 的 说 明 。 计 算得 到 的 数据 流 信息 指出 ， 在 某 一 点 上 所 有 
的 表达 式 对 都 具有 相同 的 值 。 我 们 从 下 面 的 例子 中 可 以 得 到 一 些 启发 。 通 过 确定 哪些 变量 为 常 
数 ， 可 以 获得 比 到 达 定 义 更 多 的 信息 。 例 如 ， 新 的 框架 会 知道 : 如 果 x 是 由 d: x := x+1 定 义 
的 ,而且 x 在 赋值 之 前 的 值 为 常量 ， 则 通过 赋值 后 x 仍然 是 常量 。 

相反 ， 用 到 达 定 义 传播 常量 ， 如 果 假 设 x 的 值 不 是 常量 ， 则 语句 d 可 能 是 x 的 一 个 定义 。 一 
遍 之 后 4: x := x+1 的 右 部 可 能 被 一 个 常量 取代 。 然 后 在 另外 一 次 常量 传播 可 以 检测 出 在 d 中 
定义 的 x 的 引用 实际 上 是 常量 引用 。 

在 新 的 框架 中 ，YVY 是 程序 变量 到 特定 值 集合 的 所 有 了 映射 的 集合 。 值 集合 包含 : 

1. 所 有 常量 。 

2. nonconst， 即 已 经 确定 为 没有 常量 值 的 变量 。 如 果 在 数据 流 分 析 期 间 ， 两 条 路 径 上 存在 
两 个 不 同 的 值 ( 假设 是 2 和 3 ) 分 别 赋 给 了 x， 或 者 一 条 路 径 上 对 x 的 定义 是 读 语句 ， 则 将 值 
nonconst 赋 给 变量 x。 

3. undef， 指 无 法 断言 的 变量 值 。 可 能 在 数据 流 分 析 的 前 期 执行 中 ， 没 有 发 现 变 量 定义 到 
达 被 讨论 的 点 。 

注意 ，nonconst 和 undef 是 不 一 样 的 ， 实 质 上 它们 是 相反 的 。 前 者 指 的 是 已 经 看 到 某 个 变 
量 可 以 用 许多 方法 进行 定义 ， 以 致 于 我 们 知道 它 不 是 常数 。 后 者 指 的 是 关于 该 变量 的 信息 很 少 ， 
以 致 于 我 们 根本 不 知道 它 的 任何 信息 。 

与 操作 用 下 面 的 表 来 定义 。 令 gh 和 v 是 Y 的 两 个 成 员 ， 也 就 是 说 ，Hk 和 v 都 将 每 个 变量 映 
射 到 一 个 常量 、nonconst 或 undef 上 。 然 后 在 图 10-58 中 定义 了 消 数 p = 上 Av， 其 中 ， 对 每 个 恋 
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量 x，p(x) 的 值 都 根据 ux) 和 v(x) 的 值 给 出 。 在 该 表 中 ，c 是 任意 的 常量 ，d 是 不 等 于 c 的 任 
何 常 量 。 例 如 ， 如 果 p(x) = c， 而 且 v(x) = d ， 那 么 显然 x 沿 两 条 不 同 的 路 径 分 别 获 得 两 个 不 
相同 的 值 c 和 d。 在 这 两 条 路 径 会 合 的 地 方 ， 
x 的 值 一 定 不 是 常量 , 因此 p(x) = nonconst. 
又 例如 ， 如 果 沿 某 条 路 径 对 x 一 无 所 知 
(u(x) = undef) 而 沿 另 外 的 一 条 路 径 可 以 nonconst 


确定 x 的 值 为 c， 那 么 在 这 两 条 路 径 的 汇合 


nonconst | nonconst | nonconst 

nonconst C nonconst 

nonconst c d 
处 ,我 们 只 能 断言 x 具有 值 c<。 当 然 ， 如 果 


后 来 又 发 现 另 一 条 到 达 该 汇合 点 的 路 径 ， 图 10-58 根据 h(x 和 Y(09 定 义 的 p09 
沿 该 路 径 x 还 具有 一 个 不 同 于 c 的 值 ， 则 在 会 合 后 将 x 赋值 成 nonconst。 

最 后 ， 需 要 设计 函数 集合 F, F 中 的 函数 反映 从 块 开 始 到 块 结束 的 信息 转移 。 尽 管 思 想 很 
直接 ， 但 对 函数 集合 的 描述 非常 复杂 。 因 此 ， 首 先 通过 描述 单个 定义 语句 的 函数 给 出 一 个 函数 
的 基础 集合 ， 然 后 通过 合成 函数 基础 集合 构造 整个 函数 集合 以 反映 具有 多 条 定义 语句 的 块 。 

LF 中 包含 恒 等 函 数 ， 该 函数 反映 没有 定义 语句 的 块 。 如 果 I EETA, u 是 从 变量 到 
值 的 映射 ， 那么 Kb = he。 注意 ，A 本 身 不 必 是 恒 等 映 射 ， 它 是 任意 的 。 

2. 对 每 个 变量 x 和 常数 c, 下 中 存在 一 个 函数 六 ， 使 得 对 Y 中 的 每 个 映射 nb， 我 们 及 (ob) =v, 
其 中 ， 对 x 之 外 的 所 有 w，v(w) = uw), H v(x) = c。 该 函数 反映 赋值 语句 x := c 的 动作 。 

3, 对 任意 三 个 变量 x、y 和 z ( 允许 相同 ),，F 中 存在 一 个 函数 f ， 使 得 对 Vv 中 任意 的 一 个 映 
Stu, RIA fw = Vv。 映 射 v 定 义 如 下 : 对 x 之 外 的 每 个 w， 我 们 有 v(w) = ww), FFA v(x) = 
hCG) + h(z)。 如 果 My) 或 Hz) 为 nonconst， 那 么 该 和 也 是 nonconst; WR y)Ry(z)Aundef, 
但 不 是 nonconst， 那 么 结果 是 undef。 该 函数 说 明了 赋值 语句 x := y+z 的 作用 。 在 本 章 将 + 看 作 
通用 操作 符 , 在 此 ， 如 果 操 作 是 一 元 的 、 三 元 的 或 者 更 多 元 ， 则 需要 对 操作 符 进行 修正 。 此 外 ， 
在 考虑 复制 语句 x := y 的 作用 时 ， 需 要 修正 操作 符 。 

4. 对 每 个 变量 x, F 中 存在 一 个 函数 六， 使 得 对 每 个 A，F (h) = v， 其 中 ， 对 x 之 外 的 所 有 
w, V(w) = (w)， 且 v(x) = noncanst。 该 图 数 反映 的 是 通过 读 x 对 x 进行 定义 。 在 读 语句 之 后 ， 
必须 假定 x 不 具有 任何 常量 值 。 口 
10.11.2 数据 流 分 析 框 架 的 公理 

为 了 让 我 们 讨论 的 各 种 数据 流 算法 运行 于 任意 框架 ， 需 要 给 出 了 对 集合 V、 集 合 F 和 与 操 
作 符 人 的 一 些 假设 。 虽 然 对 于 某 些 数据 流 算法 ， 还 需要 额外 的 假设 ,但 基本 的 假设 如 下 : 

1.F RAER U, Ex vV PIAR u, I) = Ho 

2. F 在 合成 运算 下 封闭 ， 即 对 F 中 的 任意 两 个 函数 了 和 8g， 由 h W = 8 FU) 定义 的 函数 
Witte FR, 

3. 人 操作 满足 交换 律 、 结 合 律 和 和 考 等 律 。 对 V 中 所 有 的 y, vA p， 这 三 个 性 质 的 代数 表 
示 如 下 : 

pANvANp) = (pAv)Ap 

pAv = vp 









w(x) 














nonconst 






c 


c 
undef undef 


pAp = p 
4. V 中 存在 一 个 栈 顶 元 素 T ， 满 足 规则 : 对 V 中 所 有 的 hh，T AR = hs 
例 10.43 ”考虑 到 达 定 义 。F 含有 恒 等 函 数 ， 即 gen 和 kill 都 是 空 集 的 函数 。 为 证 明 FE 


682 


D 


个 
P 
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合成 运算 下 封闭 ， 设 有 如 下 两 个 函数 : 
f1(X) = G1 U(X—K) 
fX) = G2 U (X -K2) 
那么 
ff1(X)) = G: U UG U(X -K,)) — K2) 


可 以 验证 ， 上 面 等 式 的 右 部 代数 上 等 于 
(G2 U (Gi =K) U (X -(K; U K2)) 


如 果 我 们 令 开 = KU Kh，G = (G2 U (G1-Kz))， 则 我 们 已 经 证 明 ， AM AMAR, BFC) = G 
UX-K), BAF RANEX. 

ERE, SRA, ROER REWEL, KARAR E, AAMERIR 
AX, ØUX=X, HA “RI THAR. 

考虑 可 用 表达 式 时 ， 使 用 和 到 达 定 义 同样 的 参数 ， 同 样 能 够 证 明 F 含有 恒 等 函 数 ， 并 在 合 
成 运算 下 封闭 。 在 这 里 ， 与 操作 符 是 交 ， 容 易 证 明 交 操作 满足 交换 律 、 结 合 律 和 才 等 律 。 因 为 
对 任意 的 表达 式 集 合 X，E mm X=X， 则 栈 顶 元 素 是 程序 中 所 有 表达 式 的 集合 Eo 口 

例 10.44 ”考虑 例 10.42 中 介绍 的 常量 计算 框架 。 函 数 集合 F 中 含有 恒 等 函 数 ， 而 且 在 合成 
运算 下 封闭 。 检 验 人 是 否 满足 交换 律 、 结 合 律 和 寡 等 律 ， 只 需 证 明 它们 对 每 个 变量 x 都 适合 。 
作为 一 个 实例 ， 我 们 检验 其 寡 等 性 。 令 v = AAAR， 即 对 所 有 的 x, v = h(x) 人 h(x)。 容 易 验 
WE, v(x) = h(x)。 例 如 ， 图 10-58 中 nonconst 和 它 自身 配对 的 结果 还 是 nonconst， 则 wx) = 
nonconst 时 ， 有 v(x) = nonconsto 

最 后 ， 栈 顶 元 素 是 映射 T+， 对 所 有 的 变量 x，T(x) = undef. 由 图 10-58 可 以 验证 ， 对 任意 映 
Su 和 任意 变量 x, WR vetAp, W v(x) =n). 10-586 undef 和 任何 变量 配对 的 结果 都 
是 另外 的 值 。 口 


10.11.3 单调 性 和 分 配 性 

为 使 数据 流 分 析 的 迭代 算法 运行 起 来 我 们 还 需要 单调 性 的 条 件 ， 即 如 果 从 集合 F 中 取出 
任意 的 一 个 函数 , 并 将 了 应 用 到 中 的 两 个 成 员 上 ， 其 中 一 个 成 员 “ 较 大 ”于 另 一 个 ， 那 么 
将 f 应 用 到 较 大 成 员 所 得 到 的 结果 不 小 于 将 f 应 用 到 较 小 成 员 所 得 到 的 结果 。 

为 精确 定义 “ 较 大 ”这 个 概念 ， 我 们 定义 V 上 的 关系 二: 


nev 当 且 仅 当 HAv = 


例 10.45 在 到 达 定 义 框架 中 ， 与 操作 符 是 并 , Y 的 成 员 是 定义 集合 , X< 了 意味 着 XU 了 = X， 
也 就 是 说 ，X 是 了 的 超 集 。 因 而 ， 友 看 起 来 是 “后 向 的 ": Y 的 较 小 元 素 是 较 大 元 素 的 超 集 。 

对 于 可 用 表达 式 ， 与 操作 符 是 交 ，Y 的 成 员 是 表达 式 集合 ，X< 了 意味 着 XAY = X, BX 
是 了 的 子 集 。 口 


从 例 10.45 中 可 以 看 出 ， 笃 不 需要 具有 友 在 整数 上 的 所 有 性 质 。 到 是 传递 的 ， 作 为 练习 ， 利 
用 人 A 的 公理 ,读者 可 以 证 明 如 果 psv 且 v 和 p， 则 <p。 但 我 们 感觉 三 不 是 全 序 的 。 例 如 ， 在 
可 用 表达 式 框架 中 ,存在 两 个 集合 达 和 了 互 不 为 子 集 ， 这 种 情况 下 ，X< 和 了 和 了 一 大 都 不 成 立 。 
用 栅 格 图 茵 出 集合 V 通常 很 有 帮助 。 栅 格 图 中 ， 节 点 为 Y 中 元 素 ， 边 的 方向 都 是 向 下 的 。 
如 果 Y<X， 则 有 一 条 从 X 到 了 的 边 。 例 如 ， 图 10-59 给 出 了 到 达 定 义 数据 流 问 题 中 的 集合 V, 
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共有 三 个 定义 d1，d; 和 dyo AX SAH “Eeee 的 超 © 

集 "， 于 是 一 条 边 就 从 这 三 个 定义 的 任意 子 集 指向 其 ae 

超 集 。 因 为 < 是 传递 的 ， 如 果 在 图 中 还 存在 另 一 条 从 >< < | 

X 到 了 的 路 径 ， 则 我 们 照 惯例 删除 从 XX 到 了 的 边 。 所 Mod td td 

以 ， 尽管 {di， dı, d} S {dj}, 但 它 可 以 由 穿 过 {di， ~ ! 一 

d) 的 路 径 来 表示 ， 所 以 我 们 没有 画 出 这 条 边 。 tn) 
我 们 注意 到 ， 因 为 Z 总 是 XAY 的 超 集 ， 从 XX 和 图 10.59 FE. FARE 


7 都 有 路 径 指向 Z， 所 以 可 以 从 图 上 直接 读 出 与 操作 的 结果 。 例 如 ， 因 为 与 操作 符 是 并 ， 如 果 
X 是 {di}, 了 Y 是 {d;}， 则 图 10-59 中 的 Z 是 1td ，dy。 栈 项 元 素 将 出 现在 栅 格 贸 的 最 顶部 ， 即 从 下 
到 每 一 个 元 素 都 存在 一 条 路 径 。 

如 果 对 V PAAR u Mv, UR FOS, 

4 pav REH, fS OERZ (10-15) 
则 定义 框架 (FE，Y，A) 为 单调 的 。 

一 种 等 价 的 定义 单调 性 的 方法 是 ， 对 V 中 所 有 的 内 和 v， 以 及 FF 中 的 了 

FA sf Af) (10-16) 
有 时 交换 使 用 两 个 等 价 定义 会 非常 有 用 。 利 用 冬 的 定义 以 及 A 人 的 结合 律 ERASE, R 
们 简单 给 出 两 个 定义 的 等 价 性 证 明 ， 而 将 一 些 简 单 的 结论 留 给 读者 去 验证 。 

假定 式 (10-15) 成 立 ， 证 (10-16) 成 立 。 首 先 注意 到 ， 对 任意 的 pg 和 vv, pAv <p A pAvsv 
都 成 立 。 有 一 个 简单 的 证 明 留 给 读者 ， 即 证 明 对 任意 的 x 和 y，(xAy)Ay=xAy。 从 而 ,由 
(10-15), f UMAY) Sf (WES MAV < fv) FERI: 如 果 x<y Hrsz RE, 则 x<yAz 也 
成 立 。 它 的 证 明 留 给 读者 去 完成 。 令 x =f(MAv)，y =f(M)，z=f(v)， 就 会 得 到 (10-16)。 

反之 ， 假 设 (10-16) 成 立 ， 证 (10-15) 成 立 。 假 设 nu 和 v， 利 用 (10-16) 证 明 f(u) < f(v) 即 可 证 
明 (10-15)。 方 程 (10-16) 告 诉 我 们 f WAV) s FWA (v)。 但 因为 已 经 假设 psv, BEX, 
LAv = hk。 于 是 ， 根 据 (10-16)，f (0) Sf WAV 成 立 。 作 为 通用 规则 ， 读 者 可 以 证 明 : 

如 果 x<yAz 则 x 和 <z 
从 而 ， 由 (10-16) 可 以 导出 fn) < (Vv)， 于 是 我 们 证 明了 (10-15) 成 立 。 

通常 ， 一 个 框架 要 遵守 比 (10-16) 更 强 的 条 件 ， 我们 称 之 为 分 配 性 条 件 ， 对 V 中 所 有 的 此 
Mv, UR F PYF, 

JHAY =f WASO) 
当然 ， 如 果 x = y， 那 么 根据 寡 等 律 有 xAy =x， 所 以 xz 和 ye。 因此 ， 由 分 配 性 可 以 导出 单调 性 。 

例 10.46 ABBA MER, SX AY AMER, f 是 由 f (2 =G U (Z-K) 定义 的 函 
数 ，G 和 天 是 定义 集合 。 通 过 检验 下 式 ， 可 以 验证 到 达 定 义 框架 满足 分 配 性 条 件 ; 

G U(X U Y)-K) = (G U (X-K) U (G U (Y -K)) 
尽管 该 关系 看 起 来 很 复杂 ， 但 画 出 文 氏 图 可 以 使 其 证 明 很 显然 。 口 


例 10.47 ”让 我 们 证 明 常 量 计 算 框 架 是 单调 的 , 但 不 具有 分 配 性 。 首 先 ， 将 人 操作 符 和 < 
关系 应 用 到 出 现在 图 10-58 表 中 的 元 素 上 。 也 就 是 说 ， 定 义 : 
nonconst Ac = nonconst 对 任意 常量 < 
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CAd = nonconst 对 常量 cza 
cAundef=c 对 任意 常量 c 
nonconst \ undef = nonconst 

wAx=x 对 任何 值 x 


那么 图 10-58 可 以 解释 为 p (a)=H(a)Av(a)。 

从 操作 符 人 的 定义 可 以 确定 值 上 的 关系 <。 我 们 发 现 : 

nonconst Sc 对 任意 常量 c 

c < undef 对 任意 常量 < 

nonconst < undef 
该 关系 如 图 10-60 中 的 栅 格 图 所 示 ， 其 中 ci 表示 所 有 可 能 的 常量 。 图 中 表示 的 是 单独 变量 a 的 
kM(a) 值 的 集合 上 的 关系 ， 而 不 是 V 的 元 素 上 的 所 。V 的 元 素 可 
以 被 看 成 是 这 种 值 的 向 量 ， 一 个 分 量 对 应 着 一 个 变量 。V 的 栅 
格 图 可 以 从 图 10-60 中 分 离 出 来 ， 只 要 记 住 ,py<v RAHAS , ， 
对 所 有 的 a, wa)<v (a) 成 立 ， 即 表示 p 和 v 的 向 量 的 每 个 分 
量 通过 < 联系 在 一 起 ， 并 且 每 个 分 量 中 上 关系 的 方向 是 一 致 的 。 -NN 

因此 ， 如 果 p<v， 则 只 要 pla) EA tc, va) REEKS 。 图 10.60 变量 值 的 栅 格 图 
或 者 是 undef; 只 要 h(a) 是 undef，v(a) 也 是 undef. 通过 检查 与 
不 同类 型 的 定义 语句 相关 联 的 函数 ， 可 以 验证 : MR usv, MfS f(v)。 从 而 证 明了 (10-15)， 
也 证 明了 单调 性 。 例 如 ， 如 果 了 和 语句 a := b+c 相 关联 ， 只 有 h(a) 和 v(a) 发 生变 化 ， 我 们 必须 检 
EWR pav, MHRA, pax) < vo), RAFA = [f (Vv)](a)*。 我 们 必须 考虑 wb), 
Hc)、vV(b) 和 v(c) 所 有 可 能 的 值 ， 使 之 服从 约束 uo) < vofiy) < vic). PRN, RNR 


undef 


\ 


a(b) = nonconst 
v(b) = 

(c) = 3 

v(c) = undef 


BBAL f (uw) (a) = nonconst 且 [ f (v)\(a) = undef. A Anonconst<undef, 已 经 验证 了 第 一 种 情况 ， 
其 他 情况 作为 练习 留 给 读者 。 

现在 , 必须 检验 常量 计算 框架 不 具有 分 配 性 。 为 此 , 令 函 数 f 与 赋值 语句 a := b+c 相关 联 ， 
AY wb) =2，H(c) =3, vib) = 3，v(c) = 2。 令 p = KAv。 于 是 p(b)Av(b)=2A3= nonconst。 
类 似 地 ，h(c)Av(c) = nonconst。 等 价 地 ，p(b) = p(c) = nonconst。 因 为 我 们 认为 两 个 不 是 常量 
的 值 其 和 也 不 是 常量 ， 可 以 浙 定 [ fp)](a) = nonconst, 

另 一 方面 ， 因 为 假设 b = 2 且 c = 3， 则 赋值 语句 a := b+c 将 a 置 为 5， 所 以 有 [FUbD](a) = 5。 
类 似 地 ，[f (Vv)](a) = 5。 所 以 [f(D) Af VNA) = 5。 现 在 我 们 看 到 pa) = (Ava) = FA 
fv)](a)， 从 而 违反 了 分 配 性 条 件 。 

直观 地 ， 违 反 分 配 性 的 原因 是 常量 计算 框架 没有 记 住所 有 的 不 变量 。 特 别 地 ， 尽 管 b Alc 
本 身 都 不 是 常量 , Wop 或 v 描述 的 路 径 ， 方程 b+c=5 仍然 成 立 。 我 们 可 以 设计 更 复杂 的 框架 
来 避免 该 问题 ， 尽 管 这 样 做 的 收效 还 不 清楚 。 幸 运 的 是 ， 正 如 下 面 将 会 看 到 的 ， 单 调 性 足以 让 
RBG RAGE He. O 


O EF ola) 这 样 的 表达 式 时 必须 小 心 。 它 的 意思 是 : 将 三 应 用 到 h 得 到 某 个 映射 F (hb) ， 我 们 称 其 为 凡 。 然 后 
再 将 HW' 应 用 到 a， 结 果 是 图 10-60 所 示 的 图 中 的 一 个 值 。 
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10.11.4 数据 流 问 题 的 聚合 路 径 解 

设想 流 图 中 的 每 一 个 节点 都 和 集合 F 中 的 一 个 转移 函数 相关 联 。 对 每 个 块 B, S fH B 
的 转移 函数 。 

考虑 从 初始 节点 Bo 到 某 个 块 Bi 的 任意 路 径 P = Bo 一 Bi 一 … 一 Bi 。 可 以 将 P 的 转移 函数 定 
MA fy fa TO fy ,的 合成 。 注 意 ， 因 为 该 路 径 到 达 块 Bi 的 开始 而 不 是 其 末尾 ， 所 以 fi 
不 是 该 合成 的 一 部 分 。 

已 经 假设 V 中 的 值 表示 程序 中 引用 的 数据 的 信息 ,聚合 操作 符 人 则 说 明 当 路 径 汇 育 时 信息 
的 结合 方式 。 因 为 路 径 汇合 之 后 ， 带 有 栈 顶 元 素 的 路 径 至 多 向 其 他 路 径 输出 它 所 携带 的 信息 ， 
所 以 可 以 认为 栈 顶 元 素 表示 “没有 信息 ”。 因 而 ， 如 果 8B 是 流 图 中 的 块 ， 通 过 考虑 初始 节点 到 
8 的 每 一 条 可 能 的 路 径 ， 从 “没有 信息 ”开始 ， 查 看 路 径 上 发 生 的 事情 ， 则 进入 B 的 信息 应 该 
是 可 计算 的 。 也 就 是 说 ， 对 Bo 到 B 的 每 条 路 径 P 了 计算 所 (T)， 并 取 所 有 的 结果 元 素 的 “与 ”。 

原则 上， 因为 存在 无 穷 条 不 同 的 路 径 ， 结 果 “ 与 ”可 以 有 无 穷 的 不 同 值 。 实 际 上 ， 只 需 考 
虑 无 环 路 径 ， 即 使 关于 上 面 讨 论 的 常量 计算 框架 不 是 无 环 路 径 ， 通 常 也 可 以 找到 其 他 的 依据 ， 
使 得 特定 的 流 图 的 结果 的 “与 ”是 有 穷 的 。 


Bo 
流 图 的 聚合 路 径 解 ( meet-over-paths solution ) 的 形式 化 定 A 
Py: tae 


义 为 : 


Pi: Pa: 
mop(B)= 人 /fp(T) 
By 到 B 的 路 经 P ~ B 
对 到 达 块 B 的 信息 的 计算 ， 聚 合 路 径 解 是 有 意义 的 。 流 图 和 图 E106 说 明 到 8 的 所 有 
10-61 相 同 ， 其 中 ， 每 条 路 径 ( 数量 可 能 无 穷 ) P!，P;，… 相 关 可 能 路 径 的 图 


的 转移 盟 数 ， 在 原始 流 图 中 被 赋予 一 条 到 8 的 完全 独立 的 路 径 。 在 图 10-61 中 ， 到 达 8 的 信息 由 
所 有 聚合 路 径 给 出 。 
10.11.5 流 问题 的 保守 解 

当 求 解 来 自 于 任意 框架 的 数据 流 方程 时 ， 或 许 mop 解 不 易 得 到 。 幸 运 的 是 ， 当 处 理 10.5 节 
和 10.6 节 中 的 数据 流 框 架 的 具体 示例 时 ， 错 误 出 现在 一 个 安全 的 范围 内 ， 并 且 数 据 流 迭代 算法 
总 能 提供 一 个 安全 解 。 如 果 对 所 有 的 块 B，in[B] < mop[8]， 则 称 in[B8] 是 安全 解 。 

不 管 读者 怎么 想 ， 到 目前 为 止 ， 我 们 还 没有 把 定义 完全 说 清楚 。 回 想 在 任意 流 图 中 ， 到 一 
个 节点 的 表 观 路 径 ( 流 图 中 的 路 径 ) 集合 可 以 是 真实 路 径 ( 流 图 对 应 程序 的 某 次 执行 所 采用 的 
路 径 ) 的 真子 集 。 因 为 通常 我 们 不 能 判别 真实 路 径 和 表 观 路 径 ， 所 以 为 了 使 数据 流 分 析 的 结果 
有 用 ， 在 保证 数据 安全 的 前 提 下 ， 需 要 通过 删除 某 些 路 径 修改 流 图 。 

假设 在 图 10-61 中 的 无 穷 路 径 集 合 中 ，x 是 某 次 执行 的 真实 路 径 P 的 fr(T) 的 “与 "。 同 样 
地 ， 令 ?是 所 有 其 他 路 径 已 的 广 (T) 的 “与 "。 因 而 ，mop (B) = x 人 y。 于 是 在 节点 B 我 们 的 数 
据 流 问题 的 真实 答案 是 xz， 但 mop 解 却 是 x 和信 y。 因 为 (x 人 Ay)Ay=xAy， 所 以 有 xAy<y。 因 此 ， 
mop 解 生 真实 解 。 

尽管 我 们 更 喜欢 数据 流 问 题 的 真实 解 ， 但 我 们 几乎 没有 有 效 的 办 法 来 准确 区 分 哪些 路 径 是 
真实 的 ， 哪 些 不 是 ， 所 以 我 们 不 得 不 接受 将 mop 解 作为 最 接近 的 可 行 解 。 对 于 任何 数据 流 信 
息 都 必须 满足 “得 到 的 解 所 真实 解 ”"。 一 旦 我 们 接受 了 这 一 点 ， 我 们 也 应 该 能 够 接受 一 个 < 
mop 从 而 所 真实 解 ) 的 解 。 这 样 的 解 比 单调 非 分 配 框架 的 mop 更 容易 得 到 。 对 于 10.6 节 中 的 
分 配 框架 ， 用 简单 的 迭代 算法 计算 mop 解 。 
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10.11.6 通用 框架 的 迭代 算法 

对 算法 10.2 进 行 推广 ， 可 以 使 其 运行 在 大 多 数 的 框架 上 。 该 迭代 算法 要 求 框架 是 单调 的 ， 
而 且 要 求 图 10-61 中 路 径 的 无 穷 集 合 的 “与 ”等 价 于 有 穷 子 集 的 “与 ”。 下面 给 出 该 算法 ， 并 讨 
论 如 何 确保 其 有 穷 性 。 沿 无 环 路 径 传播 可 以 保障 有 穷 性 。 


算法 10.18 通用 数据 流 框架 的 迭代 解 。 

输入 : A, ARE V, OBR, “5” REA, FRAP eT AA. 

输出 ; 对 流 图 的 每 个 节点 互 ， 给 出 了 中 的 in[B] 值 。 

方法 : 算法 如 图 10-62 所 示 。 与 常见 的 数据 流 迭 代 算 法 类 似 ， 用 逐次 近似 计算 法 计算 每 个 
节点 的 总 和 our。 假 设 广 是 下 中 与 块 B 相关 联 的 函数 ， 该 函数 的 作用 与 10.6 节 中 gen 和 kill 的 
作用 相间 。 口 

for 每 个 节点 8 do /rx 初始 化 ， 假设 in[8] = T #7 
out[B] := fal Th: 


while ou 发 生变 化 do 
for 每 个 块 8 ( 按 深 度 优 先 顺序 ) do begin 


inlB} := 和 人 outlPj; 
He 


B P 
/ 在 上 面 ， 空 集 的 与 是 T «7 
ouB1 := folinlB}) 

end 





图 10-62 通用 框架 的 迭代 算法 

10.11.7 一 个 数据 流 分 析 工 具 

现在 ， 让 我 们 来 看 看 如 何 将 本 节 的 思想 应 用 到 一 个 数据 流 分 析 工 具 中 。 算 法 10.18 的 运转 
依赖 于 下 面 的 子 程序 : 

1. 将 下 中 一 个 给 定 的 右 应 用 到 VV 中 一 个 给 定 的 值 的 程序 ， 图 10-62 的 第 (2) 行 和 第 (9) 行 引用 
了 该 程序 。 

2. 将 “与 ”操作 符 应 用 到 V 中 两 个 值 上 的 程序 ， 这 个 程序 在 算法 第 (5) 行 中 需要 调用 0 次 或 
多 次 。 、 

3. 判断 两 个 值 是 否 相等 的 程序 。 这 种 测试 在 图 10-62 中 没有 明确 给 出 ， 隐 含 在 对 our 值 的 
变化 测试 中 。 | 

为 了 将 参数 传递 给 上 面 提 到 的 子 程序 ， 需 要 为 FA V 声明 特定 的 数据 类 型 。 图 10-62 中 in 
和 out 值 也 属于 为 V 声明 的 类 型 。 最 后 ， 还 需要 一 个 以 基本 块 内 容 的 一 般 表 示 〈 即 语句 列表 ) 
为 输入 ， 以 的 一 个 元 素 ( 即 转移 函数 ) 为 输出 的 程序 。 


例 10.48 对 到 达 定义 框架 ， 可 以 先 建立 一 个 表 ， 用 1 到 某 个 最 大 值 m 疗 的 惟一 整数 值 标 识 
流 图 中 的 每 条 语句 。V 的 类 型 是 长 度 为 m 的 位 向 量 ,F 用 同样 大 小 的 位 向 量 对 ( 即 kil 和 gen 
集合 ) 表示 。 给 定 某 个 块 的 语句 以 及 位 向 量 位 置 与 定义 语句 的 关联 表 ，gen 和 kill 位 向 量 的 构 
造 程序 、 计 算 “ 与 ”( 位 向 量 的 逻辑 或 ) 的 程序 、 位 向 量 相等 比较 以 及 将 gen-kill 对 应 用 到 位 
向 量 的 应 用 函数 等 都 变 得 非常 直接 。 口 


数据 流 分 析 工 具 比 图 10-62 的 实现 要 复杂 一 些 。 在 图 10-62 中 需要 调用 “与 ”操作 、 函 数 应 
用 以 及 比较 程序 。 数 据 流 分 析 工具 支持 流 图 的 国定 表示 ， 因 此 能 够 执行 以 下 任务 : 找 出 某 个 节 
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点 的 所 有 前 驱 、 找 出 流 图 的 深度 优先 顺序 或 者 对 每 个 块 应 用 F 中 与 该 块 相关 的 函数 。 使 用 这 样 
一 个 工具 的 优势 在 于 ， 对 于 各 种 数据 流 分 析 ， 算 法 10.18 的 图 操作 和 收敛 检验 不 必 重 写 。 
10.11.8 算法 10.18 的 性 质 

我 们 应 当 清 楚 , 在 何 种 假设 下 算法 10.18 能 实际 运转 ， 以 及 算法 收敛 时 会 收敛 在 何 处 。 首 先 ， 
如 果 框 架 是 单调 的 且 收 敛 ， 则 声明 该 算法 的 结果 是 : STAR B, in[B]<mop(B). KURA: 
在 图 10-62 中 ， 沿 着 初始 节点 到 B = Bi 的 任何 路 径 P= Bo, Bi, ot, Be, EXT i 归纳 证 明 ， 最 
多 i 次 while 语句 迭代 之 后 ， 即 可 获知 Bo 到 B 的 路 径 作 用 。 也 就 是 说 ， 如 果 P: 的 路 径 是 Bo, 
Bi, Bi, MAMAS, infBl< fa T) Abt, MRA, ER PIB ERR 
上 都 有 in[B8]<fo(T)。 利 用 规则 “如 果 x<yHx<z, Arsys” ,我们 可 以 证 明 in[B] < 
mop(B)。 

如 果 框 架 是 分 配 的 ， 可 以 证 明 算 法 10.18 会 收敛 到 mop 解 。 基 本 思想 是 证 明 : 在 算法 运行 
期 间 ， 证 明 in[8] 和 owt[B] 分 别 等 于 到 达 B 的 起 始点 和 到 达 BWR ARR P H f(T) 
的 “与 ”。 但 是 ， 当 框架 是 单调 的 但 不 具有 分 配 性 时 ， 情 况 未 必 如 此 ， 见 下 例 。 


例 10.49 ”研究 例 10.47 中 讨论 的 常量 计算 框架 ， 该 框架 不 具有 分 配 性 ， 相 关 的 流 图 如 图 
10-63 FTAs. BRAY u A v 来 自 于 例 10.47 的 
B: 和 Bao BEA Bs 的 映射 p 等 于 HAV. © 
是 从 Bs 出 来 的 映射 。 尽 管 每 一 条 真实 路 8 
径 (以 及 每 一 条 表 观 路 径 ) 在 Bs 之 后 都 
计算 出 a=5， 我 们 还 是 置 a WH nonconst, 82 
直观 地 ， 存 在 如 下 问题 : 算法 10.8 
在 处 理 不 具有 分 配 性 的 框架 时 ， 会 将 一 
些 甚 至 不 是 表 观 路 径 ( 流 图 中 的 路 径 ) Gia) = nonconst 
的 节点 序列 认为 是 真实 路 径 。 因 而 ， 在 图 10-63 比 mop 解 少 的 解 的 例子 
图 10-63 中 ， 算 法 执行 时 将 BoB) Br > 
Bs 或 BB; 一 Bs 一 Bs 这样 的 路 径 认为 是 真实 路 径 ， 从 而 将 bic EN b EM c 值 的 组 合 ， 而 不 
是 置 为 5。 口 


10.11.9 算法 10.18 的 收敛 性 

很 多 方法 可 以 证 明 算法 10.18 对 特定 的 框架 收敛 。 最 常 
见 的 情况 可 能 是 只 需要 无 环 路 径 的 情况 ， 即 可 以 证 明 无 环 
路 径 的 “与 ”和 所 有 路 径 上 的 mop 解 相同 。 如 果 是 这 种 情 
况 ， 该 算法 不 仅 收敛 ， 而 且 通 常 收敛 得 非常 快 。 正 如 10.10 
节 所 讨论 的 ， 使 用 流 图 的 深度 加 2 遍 就 可 以 得 到 结果 。 






p(b) = p(c) 
= nonconst 





另 一 方面 ,在 常量 计算 框架 中 ,不 能 只 考虑 无 环 路 径 。 图 10-64 需要 将 环 路 包含 
例如 ， 图 10-64 给 出 了 一 个 简单 流 图 ， 其 中 ， 必 须 考 虑 路 在 mop 中 的 流 图 


径 B 一 Bs 一 By 一 B;3， 从 而 认识 到 x 在 进入 By 时 不 是 常量 。 





日” 这 里 有 一 个 技术 上 的 细节 :必须 证 明 该 规则 不 只 适合 两 个 值 y 和 < ( 即 如 果 <y MA vy; 的 任何 有 穷 集合 ， 
xs Ar) ,而 且 对 无 穷 数 目的 y;， 该 规则 同样 成 立 。 实 际 上 ， 当 算法 10.18 收 敛 时 ， 我 们 将 发 现 有 穷 条 路 径 
使 得 所 有 路 么 的 “与 ”等 于 这 有 穷 条 路 径 的 “与 ”。 


a 
N 
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然而 ， 对 于 常量 计算 ， 可 按照 如 下 方法 推出 算法 10.18 收 敛 。 首 先 ， 易 证 对 任意 的 单调 框 
架 和 任意 的 块 B, in B] 和 out[B] 形成 一 个 不 增 序列 ， 即 这 些 变 量 的 新 值 < 旧 值 。 回 想 图 10-60 
中 忠 射 值 的 椰 格 图 我们 认识 到 对 任意 的 变量 ，in[B] 或 oub) 的 值 只 能 下 降 两 次 ， 一 次 是 从 
undef 到 一 个 常量 ,一 次 是 从 该 常量 到 nonconst。 

设 有 nn 个 节点 和 + 个 变量 ， 在 图 10-62 的 while 循环 的 每 次 迭代 中 ，owi[B8] 中 至 少 有 一 个 变 
晤 的 值 发 生变 化 ， 否 则 ， 算 法 已 经 收敛 ，in[8] 或 ow[B) 的 值 将 不 再 发 生 改变 。 因 此 ， 连 代 次 
数 限制 为 20w， 发 生 2mv 次 改变 之 后 ， 流 图 中 的 每 个 块 的 变量 必定 都 已 到 达 nonconst。 
10.11.10 初始 化 的 修正 

在 某 些 数据 流 问题 中 ， 算 法 10.18 给 出 的 解 同 我 们 直觉 上 想 要 的 解 之 问 存在 偏差 。 回 想 一 
下 在 处 理 可 用 表达 式 时 ， 人 是 交 操 作 ， 所 以 十 必须 是 所 有 表达 式 的 集合 。 因 为 算法 初始 时 假设 
对 每 个 块 有 (包含 初始 节点 )，in[B] = T， 所 以 ， 假 设 初始 节点 是 可 用 的 ， 算 法 10.18 产 生 的 
mop 解 实 际 上 是 块 B 的 入口 处 可 用 表达 式 的 集合 ， 但 实际 上 初始 节点 表达 式 是 不 可 用 。 

差别 是 ， 可 能 存在 一 条 初始 节点 到 B 的 路 径 ， 使 得 表达 式 x+y 在 该 路 径 上 既 不 会 被 产生 ， 
也 不 会 被 注销 。 算 法 10.18 认 为 x+y 是 可 用 的 ， 但 事实 上 ， 因 为 沿 该 路 径 找 不 到 任何 变量 保存 它 
的 值 ， 表 达 式 是 不 可 用 的 。 修 正 操作 非常 简单 。 我 们 可 以 修改 算法 10,18 使 得 在 可 用 表达 式 杠 
架 中 , 将 in[ Bo] BNA ERASE, 或 者 在 流 图 中 引信 一 个 注销 所 有 表达 式 的 虚 初始 节点 ， 
该 虚 初始 节点 是 真正 初始 节点 的 前 驱 。 


10.12 类 型 估计 


现在 我 们 来 考虑 另外 一 种 数据 流 问题 ， 它 比 前 一 节 的 框架 更 具 挑 战 性 。 在 APL、SETL 和 
许多 Lisp 语 言 中 , 不 需要 声明 变量 的 类 型 ， 甚 至 允许 同一 个 变量 在 不 同时 间 保 存 不 同类 型 的 值 . 
因为 将 两 个 整数 相 加 的 代码 比 调用 一 个 将 两 个 不 同类 型 〈 比如 整 型 、 实 型 、 向 量 类 型 ) 的 对 象 
相 加 的 通用 程序 效率 要 高 ， 想 要 真正 地 将 这 些 语言 编译 成 高 效 的 代码 ， 需 要 使 用 数据 流 分 析 去 
推断 变量 的 类 型 。 

最 初 ， 我 们 猜测 变量 类 型 估计 与 到 达 定 义 计 算 有 些 相像 。 在 特定 点 上 ， 可 以 将 一 组 类 型 与 
变量 联系 起 来 。 聚 合 操作 符 是 对 数据 类 型 集合 的 并 。 如 果 变 量 x 在 一 条 路 径 上 可 能 的 类 型 的 集 
合 为 5S,， 在 另 一 条 路 径 可 能 的 类 型 的 集合 为 ?9， 那 么 x 在 路 径 汇 合 之 后 就 可 能 是 集合 SUS. 中 
的 任何 一 种 类 型 。 当 控制 穿 过 一 条 语句 时 ， 基 于 语句 中 的 操作 符 、 操 作对 象 可 能 的 类 型 ， 以 及 
结果 的 类 型 ， 能 够 对 变量 类 型 做 出 推断 。 例 6.6 就 是 这 种 推断 的 一 个 例子 ， 它 处 理 一 个 将 整 型 
数 和 复 型 数 相 乘 的 操作 符 。 

但 是 ， 这 种 方法 至 少 还 存在 两 个 问题 : 

1. 一 个 变量 的 可 能 类 型 集合 也 许 是 无 穷 的 。 

2. 为 获得 可 能 类 型 的 准确 估计 , 类 型 判定 通常 既 需 要 前 向 信息 传播 ， 又 需要 后 向 信息 传播 。 
因此 ， 为 充分 地 评判 该 问题 ， 即 使 10.11 节 的 框架 也 不 能 够 完全 满足 要 求 。 

在 考虑 第 1 点 之 前 ， 让 我 们 先 考察 一 下 常见 的 语言 中 对 类 型 做 出 的 一 些 推断 。 


例 10.50 考虑 下 面 的 语句 : 


i := alj) 
k := ali] 


假设 起 初 我 们 对 变量 a，i ，j ，k 的 类 型 一 无 所 知 ， 但 是 让 我 们 假设 数组 访问 操作 符 [ ] 要 
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求 参 数 为 整 型 。 通 过 检查 第 一 条 语句 ， 我 们 可 以 推断 出 j 在 该 点 是 一 个 整数 ， 而 且 a 是 某 种 类 
型 元 素 的 数组 。 然 后 ， 第 二 条 语句 告诉 我 们 i 是 整数 。 

现在 ， 我 们 可 以 向 后 传播 这 些 推断 。 如 果 :i 在 第 一 条 语句 中 被 计算 为 一 个 整数 ， 那 么 表达 
ska [i] 的 类 型 一 定 是 整 型 ， 这 意味 着 a 必定 是 一 个 整数 数组 。 然 后 再 向 前 推导 我 们 可 以 发 现 由 
第 二 条 语句 赋 给 k 的 值 一 定 也 是 个 整数 。 注 意 ， 如 果 只 是 向 前 推导 或 只 是 向 后 推导 ， 都 不 能 发 
现 a 的 元 素 为 整 型 。 口 
10.12.1 处 理 无 穷 类 型 集 

存在 大 量 超出 常规 的 情况 ， 这 时 一 个 变量 的 可 能 类 型 集合 是 无 穷 的 。 例 如 ，SETL 语 言 多 
许 在 循环 内 执行 x := {x} 这 样 的 语句 。 如 果 起 初 只 知道 x 可 能 是 个 整数 ， 那 么 在 循环 的 一 次 选 
代 之 后 ， 我 们 意识 到 x 可 能 是 个 整数 ， 也 可 能 是 个 整数 的 集合 。 在 第 二 次 迭代 之 后 ， 又 发 现 x 
可 能 是 个 整数 的 集合 的 集合 ， 依 此 类 推 。 

传统 的 C 语 言 没 有 类 型 声明 ， 也 可 能 发 生 类 似 的 问题 。 像 x=&x 这 样 的 语句 ( 起初 x 可 能 
是 个 整数 ) 将 导致 我 们 发 现 x 可 能 是 如 下 形式 的 任何 一 种 类 型 : 

指向 整数 的 指针 的 指针 … 的 指针 

处 理 这 类 问题 的 传统 做 法 是 ， 将 变量 的 可 能 类 型 集合 减少 为 有 穷 的 数目 。 一 般 地 ,将 无 穷 
的 可 能 类 型 划分 成 只 保留 较 简单 类 型 的 有 穷 类 ， 将 特别 复杂 的 类 型 ( 希望 也 是 最 少 的 ) 划分 到 
大 的 类 别 中 。 如 果 这 么 做 ， 必 须知 道 如 何 对 类 型 和 操作 符 之 间 的 相互 作用 做 出 推断 。 下 面 的 例 
子 将 告诉 我 们 怎么 做 。 

例 10.51 继续 考虑 第 6 章 的 例子 ， 当 时 用 操作 符 一 作为 函数 的 类 型 构造 符 。 在 这 里 ， 类 型 
集合 包括 基本 类 型 i nt， 以 及 形 如 o 的 所 有 类 型 。 人 一 Ga 代表 定义 域 类 型 为 +t、 值 域 类 型 为 5 
的 函数 类 型 ， 其 中 + 和 o 都 是 类 型 集合 中 的 类 型 。 因 此 ， 本 例 的 类 型 集合 是 无 穷 的 ， 它 可 能 包 
括 下 面 这 样 的 类 型 : 


(int = int) = ((int > int) = int) 


为 了 将 类 型 集合 的 种 类 减少 到 有 穷 数 目 ， 通 过 用 名 字 func 取代 至 少 包含 一 个 一 的 表达 式 中 的 
子 表 达 式 ， 我 们 限制 一 个 类 型 表达 式 只 有 一 个 函数 类 型 构造 符 一 。 因 而 上 只 有 5 种 不 同 的 类 型 : 
int 
int = int 
int > func 
func > int 
func 了 func 


用 长 度 为 5 的 位 向 量 表示 类 型 集合 ， 各 位 分 别 对 应 上 面 列 出 的 5 种 类 型 。 因 此 ，01111 代 表 除 束 
型 以 外 的 类 型 。 因 为 fun 不 可 能 是 整 型 ， 在 某 种 意义 上 说 ，01111 代 表 了 func 类 型 。 
在 该 模型 中 基本 的 赋值 语句 为 : 


x := fly) 


知道 了 f 和 y 的 可 能 类 型 ， 可 以 通过 查找 图 10-65 的 表 确 定 x 的 类 型 。 如 果 f 是 集合 S 中 的 任 一 类 
型 ， y 是 集合 S2 中 的 任 一 类 型 ， 在 Si 和 中 分 别 取 tHo 进行 组 合 ， 然后 查找 以 1 为 行 ， Lia 
为 列 的 表 项 (我们 将 其 称 为 Ya) )， 最 后 将 所 有 查找 结果 并 起 来 可 得 到 x 的 可 能 类 型 集合 。 

例如 ， 如 果 T= int—>func Ho = int, Wj to) = 01111。 也 就 是 说 ，int 一 func 类 型 到 int 类 型 
的 映射 结果 是 func, func 是 除 int 之 外 的 四 种 类 型 之 一 。 因 为 将 无 穷 种 类 型 划分 为 5 类 的 模糊 不 
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清 的 做 法 妨碍 了 我 们 的 认识 ， 我 们 不 能 区 分 func 到 底 是 四 种 类 型 中 的 哪 一 个 。 










a 













int>int int->func 





func>int | func—func 





int 


00000 
int >int 00000 
int>func 00000 
func int 10000 
func func Olilt 





图 10-65 *(G) 的 值 


Felon, S t 取 先 前 的 值 而 G = intint, IKI ra) = 00000， 因 为 + 的 定义 域 类 型 与 o 的 
类 型 一 定 不 相同 ， 因 此 不 能 应 用 映射 。 口 
10.12.2 一 个 简单 的 类 型 系统 

为 阐明 类 型 推断 算法 的 思想 ， 我 们 介绍 一 个 简单 的 类 型 系统 和 基于 例 10.51 的 语言 。 类 型 
是 例 10.51 中 说 明 的 那 5 种 ， 语 言 中 的 语句 有 如 下 3 种 : 

1. read xo raa 且 假 定 对 它 的 类 型 一 无 所 知 。 

2. x := £ (y)。x 的 值 通过 在 值 y 上 应 用 函数 f 得 到 ， 图 10-65 中 总 结 了 赋值 后 x 可 能 的 类 型 。 

3. use x as 7T。 当 我 们 穿越 这 样 的 语句 时 ， 可 以 假设 程序 是 正确 的 。 因 而 ， 在 该 语句 之 
前 和 之 后 ，x 的 类 型 都 只 能 是 tr。x 的 值 和 类 型 不 受 该 语句 的 影响 。 

对 于 由 这 三 种 类 型 的 语句 构成 的 程序 ， 通过 在 其 流 图 上 执行 数据 流 分 析 来 推断 变量 类 型 。 
为 简 音 起见， 假设 所 有 的 块 都 只 包含 一 条 语句 。 块 的 in 和 out 值 是 从 变量 到 例 10.51 中 的 5 种 类 
型 的 集合 的 映射 。 

起 初 ， 每 个 in 和 out 都 将 变量 映射 到 5 种 类 型 的 集合 。 随 着 信息 的 传播 ， 在 某 些 点 上 将 减 
少 与 某 些 变 量 相 关联 的 类 型 集合 ， 直 到 不 能 再 减少 为 止 。 最 后 的 集合 将 指出 在 每 个 点 上 每 个 变 
量 的 可 能 类 型 。 因 为 只 有 能 证 明 (假设 程序 正确 ) 某 个 类 型 是 不 可 能 的 时 ， 才 删除 它 ， 因 此 这 
种 假设 是 保守 的 。 一 般 地 ， 我 们 希望 利用 “ 某 些 类 型 是 不 可 能 的 ”的 事实 ， 而 不 是 利用 “ 某 些 
类 型 是 可 能 的 ”事实 去 进行 推断 。 相 对 于 错误 而 言 ,“ 太 大 ”是 一 种 安全 的 方向 。 

采用 “前 向 ”方案 和 “后 向 ”方案 来 修改 in 和 out。 前 向 方案 使 用 块 B 中 的 语句 和 in[8] 
的 值 约束 out[8]* ， 后 向 方案 正好 相反 。 在 每 种 方案 中 ， 聚 合 操作 符 都 是 “合理 变量 的 并 ”， 
意 即 ， 对 所 有 的 变量 x， 两 个 映射 a 入 的 聚合 映射 ?满足 : 

yix] = alx] U Bix] 


10.12.3 前 向 方案 

假设 有 一 个 块 B，in[B] 中 的 映射 pp， 以 及 out[B] 中 的 映射 v。 前 向 方案 要 求 约束 vo ARV 
的 规则 依赖 于 块 B 中 的 指令 。 

1. 如 果 语 句 是 read x， 此 时 各 种 类 型 都 可 能 被 读 和 人 。 如 果 在 读 之 后 已 知 x 的 类 型 ， 那 么 
在 这 次 前 向 传播 中 记 住 x 的 类 型 ， 无 须 改 变 v(x)。 对 所 有 的 其 他 变量 y， 置 : 





合 ” 值 得 注意 的 是 ， 在 传统 的 前 向 数据 流 方案 中 ， 我 们 没有 约 东 out， 每 次 从 in 重 新 计算 out。 之 所 以 可 以 这 样 做 
是 因为 jn 和 out 总 是 沿 相 同 的 方向 改变 ， 即 要 么 总 是 增长 ， 要 人 么 总 是 收缩 。 但 是 ， 在 类 型 推断 问题 中 ， 我 们 
或 者 执行 前 向 传播 ， 或 者 执行 后 向 传播 ， 可 能 存在 这 种 情况 : 后 向 传播 得 到 的 out 比 对 in 应 几 前 向 规则 证 明 
得 到 的 ov 要 小 。 于 是 ， 我 们 在 前 向 传播 时 不 必 提 高 ow， 只 是 在 后 向 传播 时 再 次 降低 即 可 。 类 似 地 ， 后 向 
传播 时 我 们 必须 约束 in 而 不 是 重新 计算 它 。 
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wy) := v(y) N ply) 


2. 假设 语句 是 use x as t。 经 过 该 语句 之 后 , + 是 x 惟一 可 能 的 类 型 。 如 果 已 经 知道 x 不 
可 能 是 类 型 7， 那么 经 过 该 语句 之 后 ，x 就 没有 可 能 的 类 型 。 将 这 些 结论 概括 为 : 698 

v(x) := v(x) N {7} 

wy) := wy) N ply) 如 果 y # x 

3. 考虑 语句 x := f (y) 。 经 过 该 语句 之 后 x 惟 一 可 能 的 类 型 是 : 

i) 可 能 依赖 v 的 当前 值 ， 并且 

ii) 是 将 某 个 类 型 t 的 映射 应 用 到 类 型 o 上 的 结果 ,t+ 和 G 分 别 是 该 语句 执行 之 前 f£ 和 y 可 
能 具有 的 类 型 。 

形式 化 为 : 

V(x) =VOON {plp=T(0), EuP, off u(y) F} 
还 可 以 对 f 和 y 的 类 型 做 出 推断 ， 因 为 假设 程序 是 正确 的 ， 如 果 f 不 能 应 用 到 某 种 数据 类 型 上 ， 
则 不 可 能 具有 该 类 型 ， 当 y 不 能 作为 £ 的 参数 类 型 ， 则 y 不 能 具有 该 类 型 。 也 就 是 说 ， 如 果 
f¥x, W 

wE) = E)N {t HERE), MERLO, (0) + Ø} 
ay zx, Wy 

Vy) := v(y) {clo 在 p(y) 中 ， 而且 对 kh(f) 中 的 某 个 t，<t(6) #2} 
对 所 有 的 其 他 z， 

v(z) = Vz) N p(z) 
1012.4 BAAR 

现在 考虑 在 后 向 方案 中 ， 如 何 根据 v 和 语句 的 传播 信息 来 约束 po 

1. 如 果 语 句 是 read x， 则 容易 看 出 在 该 语句 执行 之 前 ， 不 能 推断 出 新 的 不 可 能 类 型 ， 所 
以 h(x) 不 会 改变 。 但 是 对 所 有 的 y 堵 x， 可 以 通过 置 wy) := RHY)mv(y) 来 向 后 传播 信息 。 

2. 如 果 语 句 是 use x as T+， 则 可 以 做 出 与 前 向 方案 相同 的 推 斯 ， 在 该 语句 前 ，x 只 能 有 
类 型 +， 在 该 语句 之 前 和 之 后 都 可 能 出 现 的 是 其 他 变量 类 型 。 也 就 是 说 ， 

u(x) := p(x) N {1} 

My) =H) N v(y) , HF y#x 

3. 和 前 面 一 样 ， 最 复杂 的 情况 就 是 形 如 x := f(y) 的 语句 。 开 始 ， 在 语句 之 前 ， 除 非 x 磁 巧 
是 某 个 f 或 y， 否 则 不 能 推断 出 x 的 新 信息 。 因 此 ， 除 非 使 用 下 面 涉 及 f 和 y 的 规则 ， 否 则 p(x) 不 
会 改变 。 接 下 来 ， 与 前 向 规则 中 一 样 ， 可 以 根据 以 下 事实 做 出 推断 : 在 该 语句 之 前 E 和 Yy 的 类 
型 必须 兼容 。 但 是 如 果 f 关 x， 则 可 将 RE) 限制 为 Y(f) 中 的 类 型 ， 关 于 y 有 一 个 类 似 的 句子 成 立 。 
另 一 方面 ， 如 果 f=x， 那 么 在 该 语句 之 后 f 的 类 型 就 和 该 语句 之 前 £ 的 类 型 没有 联系 ， 故 不 允许 
这 样 的 约束 。 如 果 y=x， 则 有 一 个 类 似 的 句子 成 立 。 为 £ 和 y 定 义 一 个 特殊 的 映射 将 有 助 于 反映 
该 结果 ， 于 是 我 们 定义 : 

mB t= x, Wf) := w(t), Ble) := ENVE) 

如 果 y=x, Way) := Ry)， 和 否则 jy) := UNY) 

现在 可 以 将 fE 和 y 限 制 成 与 其 他 类 型 集合 兼容 的 类 型 。 同 时 可 以 基于 下 面 事实 来 限制 和 y 
的 类 型 ， 即 它们 不 仅 是 兼容 的 ， 而 且 必须 输出 v 所 确定 的 x 的 可 能 类 型 。 因 此 ， 我 们 定义 : 

NCE) := {Tit 在 M1(f) 中 ， 而 且 对 p(y) 中 的 某 个 o，t(o) 几 v(x) 天 D) 
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B) := {ooy P, WEAR OPÉRANT UON v(x) ¥ D) 

H(z) := Uz2 N vz), HERET, yak ez 

继续 类 型 确定 算法 之 前 ， 回 想 一 下 10.5 节 关于 到 达 定 义 的 讨论 。 如 果 开 始 时 错误 地 假定 某 
个 定义 d 在 一 个 循环 中 的 某 处 是 可 用 的 ， 那 么 将 把 这 个 事实 沿 着 循环 错误 地 传播 ， 最 终 导致 到 
达 定 义 集 合 比 必需 集合 大 。 类 似 的 问题 也 存在 于 类 型 确定 中 ,在 一 个 循环 中 ， 关 于 某 个 变量 可 
能 具有 某 种 类 型 的 假设 将 被 它 自身 “证 明 "。 所 以 除了 例 10.51 的 32 个 类 型 集合 之 外 ， 我 们 要 引 
人 第 33 个 值 ， 即 undef. 映射 上 可 以 将 值 undef RA— DEE, undef 的 作用 与 其 常量 传播 框架 
中 的 作用 相似 。 

在 聚合 过 程 中 ， 值 undef 服从 于 其 他 任何 值 ， 就 像 类 型 00000 一 样 。 另 一 方面 ， 当 对 类 型 
集合 执行 交 操 作 时 ， 如 计算 pox) v(x), {A undef 仍 服从 于 其 他 类 型 集合 ， 其 功能 就 像 11111 类 
型 。 举 例 来 讲 ， 当 我 们 读 一 个 变量 x 的 值 时 , 读 之 后 x 的 “类 型 ”被 看 作 是 undef 的 事实 被 否决 ， 
而 且 x 的 类 型 变 成 11111。 

算法 10.19 

和 输入: 一 个 流 图 ， 它 的 块 由 三 种 类 型 ( 读 、 赋 值 和 use-as ) 的 单个 语句 组 成 。 

输出 ; 在 每 个 点 的 每 个 变量 的 类 型 集合 。 这 个 集合 是 保守 的 ， 即 任何 一 种 真实 的 运算 必 将 
导致 该 集合 中 的 一 个 类 型 。 

方法 : 为 每 个 块 B 计算 映射 in[B8] 和 outLB]， 每 个 映射 都 将 程序 的 变量 发 送 到 例 10.51 中 引 
人 的 类 型 系统 中 的 类 型 集合 中 。 初 始 时 ， 所 有 的 映射 都 将 每 个 变量 发 送 双 | undef. 

接着 我 们 交替 采用 前 向 传播 和 后 向 传播 穿越 流 图 ， 直 到 连续 的 前 向 和 后 向 传播 均 不 再 产生 
任何 变化 为 止 。 前 向 传播 执行 : 

for 深度 优先 顺序 中 的 每 个 块 8 do begin 

in(B|:= sump out|P }; 
out(B) := 前 面 定 义 的 int8] 和 out1B] 的 函数 


end 
后 向 传播 执行 : 
for 逆 深 度 优先 顺序 中 的 每 个 块 8 do begin 
outlB] := U in{S]; 
B HERS 
in[B] := 前 面 定义 的 in[B8] 和 our[8] 的 函数 


end 


o 


例 10.52 考察 图 10-66 中 所 示 的 一 个 简单 的 直线 式 (无 转移 ) 程序 ， 我 们 对 四 个 映射 感 兴 
B, 分 别 命 名 为 u 到 u A ju; 既是 ouit[B;] 
又 是 in[Bi1]。 因 为 本 节 我 们 假设 每 个 块 都 是 单 
Wa, B 不 能 包含 两 个 语句 。 因 为 所 有 变量 在 
B, 结束 前 可 以 具有 任意 类 型 ， 所 以 不 必 关心 在 ” 
B1 结 束 前 所 发 生 的 事情 。 

这 表明 在 收 剑 发 生前 我 们 需要 5 遍 ， 还 需要 B,| use a as int | 
两 遍 去 检测 收 和 敛 的 发 生 ， 如 图 10-67a 至 图 10-67e 
所 示 。 第 一 迪 是 前 向 的 。 当 考虑 BY, PRT Bs 
PLLA AEE BR, ANC CARA, WE he = ou [B4] 
现 a 在 Bs 中 被 用 作 整 数 ， 因 此 在 ps 和 pu 中 只 图 10-66 程序 示例 


B, 


u, = out{B,] = in[B,} 


hz = out{B,} = in{B,) 


By = ouilB3] = in{By) 
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能 被 映射 为 intr， 这 些 结论 被 总 结 在 图 10-67a 中 。 

如 图 10-67b 所 示 ， 第 二 遍 是 后 向 的 。 在 这 一 遍 中 ， 当 考虑 B, 时 ， 我 们 知道 将 pb 应 用 到 a 时 ， 
a 一 定 是 整数 。 从 而 ，b 的 类 型 只 能 是 int—int 或 六 一 fac。 在 第 三 遍 ( 前 向 传播 ) 中 ， 对 pb 的 
类 型 的 约束 沿 流 图 的 所 有 路 径 向 下 传播 ， 如 图 10-67c 所 示 o 











10000 | 01100 
10000 | O1111 
10000 | 01111 
10000 | 01111 





b) 


10000 | 01100 
10000 | 01100 


10000 





图 10-67 算法 10.19 在 图 10-66 的 流 图 上 的 模拟 执行 
a) 前 向 b) 后 向 OME dd) 后 向 日 前 向 


第 四 遍 是 后 向 的 ， 如 图 10-67d 所 示 。 此 时 ,在 Bs Pc Hb 的 参数 。 这 个 事实 告诉 我 们 c 
只 能 是 整数 。 考 虑 B: 时 我 们 还 发 现 b (a) 的 结果 只 能 是 c 的 类 型 ， 即 int。 这 个 事实 排除 了 
b 是 int func 类 型 的 可 能 性 。 最 后 在 图 10-67e 中 ， 我 们 看 到 在 第 5 遍 ( 前 向 传播 ) 中 ， 关 于 b 
和 c 的 这 些 事实 是 如 何 传 播 的 。 在 下 一 遍 中 ， 不 能 做 出 新 的 推断 ， 在 这 种 情况 下 ， 我 们 已 经 将 
每 一 点 的 每 个 变量 可 能 类 型 的 集合 减少 到 单个 类 型 : a 和 c 是 整 型 , b 是 从 整 型 到 整 型 的 映射 。 
一 般 ， 我 们 也 许 会 得 到 某 一 点 的 某 个 变量 的 几 种 可 能 类 型 。 口 


10.13 优化 代码 的 符号 调试 


符号 调试 器 是 这 样 一 个 系统 ， 它 允许 在 程序 运行 时 观察 程序 的 数据 。 当 程序 运行 出 错 ， 如 
发 生 溢出 ， 或 到 达 程 序 员 在 源 代 码 中 设 定 的 某 条 语句 时 ， 通 常会 调用 符号 调试 器 。 符 号 调试 器 
一 旦 被 调用 ， 它 将 允许 程序 员 检 查 变量 ,或 者 改变 当前 正 被 运行 程序 访问 的 变量 。 
为 了 使 调试 器 能 理解 诸如 “给 我 显示 a 的 当前 值 ” 这 样 的 用 户 命令 ， 它 必须 具有 某 些 可 用 
信息 : l 

1. 必须 有 某 种 方式 将 a 标 识 符 和 它 代 表 的 地 址 联系 起 来 。 因 此 ， 编 译 器 必须 用 符号 表 记 录 
每 个 变量 的 分 配 位置 ， 如 全 局 数据 区 或 某 个 过 程 活动 记录 中 的 一 个 位 置 。 保 存 符 号 表 并 供 调试 
器 使 用 。 例 如 ， 这 些 信 息 可 被 编码 成 程序 的 可 加 载 模块 。 
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2. 必须 有 作用 域 的 信息 ， 才 能 明确 引用 多 次 声明 的 标识 符 ， 并 能 分 辨 出 在 程序 处 于 某 一 过 
程 pb 时， 其 他 过 程 中 的 哪些 数据 可 以 访问 ， 以 及 如 何在 栈 或 其 他 运行 时 结构 中 找 出 这 样 的 数据 。 
这 些 信息 必须 从 编译 器 的 符号 表 中 获取 ， 并 被 保存 以 供 调试 器 将 来 使 用 。 

3. 调用 调试 器 时 我 们 必须 知道 程序 正 运行 到 什么 位 置 。 当 编译 器 处 理 一 个 用 户 声明 的 调试 
器 调用 时 ， 运 行 位 置信 息 被 编译 器 圣人 到 对 调试 器 的 调用 中 。 当 运行 时 错误 引起 调试 器 被 调用 
时 ， 可 以 从 异常 处 理 程序 中 获得 该 信息 。 

4. 为 了 使 用 户 能 够 获得 3 中 的 程序 运行 位 置信 息 ， 必 须 有 一 个 表 ， 将 机 器 语言 语句 和 它 的 
源 代 码 语句 联系 起 来 。 这 个 表 可 以 在 编译 器 产生 代码 时 建立 。 l 

当 考 虑 符号 调试 器 设计 的 自身 正确 性 时 ， 我 们 只 考虑 为 优化 编译 器 编写 符号 调试 器 时 出 现 的 
困难 。 乍 一 看 ， 好 像 根 本 不 需要 调试 一 个 优化 后 的 程序 。 在 正常 的 开发 过 程 中 ， 当 用 户 调试 程序 
时 ， 通 常 使 用 快速 的 、 非 优化 编译 器 ， 直 到 源 程 序 正确 为 止 ， 然 后 才 使 用 优化 编译 器 进行 优化 。 

但 是 ， 对 相同 的 输入 数据 ， 用 非 优 化 编译 器 编译 后 能 正确 运行 的 程序 ， 用 优化 编译 器 编译 
后 却 不 能 正确 运行 。 例 如 ， 优 化 编译 器 中 可 能 有 错误 ， 或 者 在 执行 重 排序 操作 时 ， 优 化 编译 器 
可 能 引入 上 溢 或 下 滋 错 误 。 而 且 ， 即 使 “ 非 优化 ”编译 器 也 可 做 一 些 简单 的 变换 ， 如 在 基本 块 
中 清除 局 部 公共 子 表 达 式 或 重 排 代码 ， 而 这 些 变换 对 符号 调试 器 的 设计 难度 非常 重要 。 因 此 ， 
对 于 可 以 随意 变换 基本 块 的 优化 编译 器 ， 设 计 符 号 调试 器 时 需要 考虑 使 用 何 种 算法 和 数据 结构 。 
10.13.1 基本 块 中 变量 值 的 推断 

为 简单 起 见 ， 假 定 源 代码 和 目标 代码 都 是 中 间 语 句 序列 。 因 为 中 间 代码 比 源 代 码 更 通用 ， 
所 以 把 源 代码 看 成 中 间 代 码 不 会 出 现 问题 。 例 如 ， 用 户 可 能 只 在 源 代 码 的 语句 之 间 设 置 断 点 
( 调用 调试 器 )， 在 这 里 ， 人 允许 在 任何 中 间 语 句 之 后 设置 断 点 。 当 优化 器 把 单个 中 间 语 句 断 成 几 
个 单独 的 机 器 语句 时 ， 把 目标 代码 看 作 是 中 间 代 码 会 有 问题 。 例 如 ， 由 于 某 种 原因 ， 把 两 条 中 
间 语 句 


u 
x 


V+w 
y+ z 


编译 成 代码 时 ， 两 个 加 法 运算 在 不 同 的 寄存 器 中 执行 并 被 交叉 存 取 。 如 果 发 生 这 种 情况 ， 我 们 
把 寄存 器 看 作 是 中 间 代 码 的 临时 变量 。 例 如 : 


ri : 


r2 := y 
ri := ZI1 + w 
r2 := r2 +z 
u := rt 
x := r2 


用 户 以 为 在 执行 源 程序 块 ， 但 实际 上 ， 正 在 执行 的 是 块 的 优化 版 本 。 因 此 ， 当 用 户 使 用 这 
样 的 块 时 ,会 产生 若干 问题 : 

1. 假定 我 们 正在 执行 一 个 程序 ， 该 源 程序 的 某 个 基本 块 已 经 被 优化 。 当 执行 语句 a := bec 
时 发 生 了 溢出 ， 调 试 器 必须 告诉 用 户 在 某 条 源 语句 中 发 生 了 一 个 错误 。 因 为 b+c 可 能 是 出 现在 
两 条 或 更 多 条 源 语 句 中 的 一 个 公共 子 表达 式 上 ， 那 么 ， 该 错误 应 归咎 于 哪 条 语句 呢 ? 

2. 如 果 调 试 器 的 用 户 想 要 察看 某 个 变量 d 的 当前 值 ， 则 会 出 现 更 难 的 问题 。 在 优化 程序 中 ， 
G 可 能 最 后 在 某 个 语句 s 中 被 赋值 ， 但 在 源 程 序 中 ， 出 现在 调用 调试 器 的 语句 之 后 的 9*， 可 能 对 q 
赋值 。 因 此 ,对 调试 器 可 用 的 a 值 并 不 是 用 户 源 代码 列表 中 a 的 当前 值 。 同 样 地 ， 如 果 s 出 现在 
调用 调试 器 的 语句 之 前 ， 但 在 源 代码 中 ， 两 者 之 间 有 另外 一 个 对 d 的 赋值 ， 所 以 对 调试 器 可 用 


代码 优化 457 


的 q 值 已 经 过 时 。 能 不 能 把 6 的 正确 值 提 供给 用 户 呢 ? 例如 ，q 可 否 为 优化 代码 中 的 其 他 变量 的 
值 ， 或 是 否 可 以 从 其 他 变量 的 值 计算 出 来 ? 

3. 最 后 ， 如 果 用 户 在 源 代码 中 的 某 条 语句 之 后 设置 了 断 点 ， 在 执行 优化 代码 时 ， 应 该 在 什 
么 时 候 将 程序 的 控制 权 交 给 调试 器 ? 

有 一 种 解决 方法 是 ， 同时 运行 基本 块 的 未 优化 版 本 和 优化 版 本 ， 以 使 每 个 变量 的 正确 值 一 
直 都 是 可 用 的 。 但 我 们 拒绝 这 种 解决 方法 ， 因 为 当 引 起 问题 的 指令 在 时 间 上 和 空间 上 被 相互 隔 
离 时 ， 细 微 的 程序 缺陷 ， 尤 其 是 编译 器 引入 的 缺陷 ， 可 能 会 消失 。 

我 们 采用 的 解决 方法 是 ,为 调试 器 提供 足够 的 基本 块 信息 ,使 其 至 少 可 以 回答 下 面 的 问题 ; 
能 不 能 提供 变量 a 的 正确 值 ? 如 果 能 ， 怎 样 提供 ? 用 来 表示 该 信息 的 数据 结构 是 基本 块 的 dag， 
用 来 注释 在 源 程序 和 优化 后 的 程序 中 的 什么 时 间 ， 哪 个 变量 保存 着 与 dag 中 某 个 节点 相对 应 的 
值 。 节 点 附带 的 注释 a: ij 表示 从 语句 i 开始 到 出 现 赋值 语句 前 的 语句 j 中 ,该 节点 所 表示 的 
值 一 直 被 保存 在 变量 a 中 。 如 果 j = w ， 则 一 直到 基本 块 的 末尾 a 都 将 保存 该 节点 的 值 。 

例 10.53 ”图 10-68a 是 一 个 源 代码 的 基本 
块 ， 图 10-68b 是 该 代码 的 一 种 优化 版 本 。 图 10- 
69 是 两 者 的 dag， 图 中 标明 了 源 程序 和 优化 代码 
中 每 个 变量 的 取 值 范 围 ，' 号 用 来 指示 该 庄 句 范 
围 是 在 优化 代码 中 。 例 如 ， 标 以 + 的 节点 是 源 
代码 中 从 语句 (2) 开 始 到 赋值 语句 (3) 赋 值 之 前 c 
的 值 。 它 还 是 源 代码 中 从 语句 (3) 开 始 到 基本 块 
末尾 的 G 的 值 。 另 外 ， 这 个 节点 还 是 优化 代码 中 
从 语句 (2 开始 到 块 末尾 的 d 的 值 。 口 


现在 ， 我 们 可 以 回答 上 面 提出 的 第 1 个 问题 
了 。 假 定 执行 优化 代码 的 语句 广 时 发 生 了 溢出 
错误 ， 因 为 与 语句 了 相同 的 dag 节点 的 任何 源 
语句 都 将 计算 相同 的 值 ， 所 以 有 必要 告诉 用 户 ， 
错误 发 生 在 计算 该 节点 的 第 一 条 源 语句 处 。 因 
此 ， 在 例 10.53 中 ， 如 果 错 误 发 生 在 语句 (17)， 
(2°), (3 或 (4)， 则 可 以 报告 用 户 错误 相应 地 发 
ERAO), (5), (3) 或 (6) 处 。 因 为 语句 (5) 没 有 图 10-69 带 注释 的 dag 

计算 任何 值 ， 所 以 不 会 发 生 错 误 。 在 例 10.54 中 ， 我 们 会 详细 介绍 对 应 语句 的 计算 方法 。 

我 们 还 可 以 回答 第 2 个 问题 。 假 设 在 优化 代码 的 语句 六 发 生 了 一 个 错误 ， 而 用 户 被 告知 控 
制 正 处 在 源 代码 的 语句 i。 如 果 用 户 想 查看 变量 x 的 值 ， 我 们 必须 找到 一 个 变量 y ( 在 多 数 情 况 
下 ，y 就 是 x )， 使 得 源 程序 语句 i 中 变量 x 的 值 和 优化 代码 语句 j 中 变量 y 的 值 是 同一 个 dag 节 
点 。 检 查 dag 找 出 哪个 节点 代表 语句 i 中 变量 x AA, 我们 可 以 从 该 节点 中 读 出 目标 程序 曾经 
具有 该 值 的 所 有 变量 ， 以 查看 是 否 有 哪个 变量 具有 语句 产 中 的 这 个 什 。 

假如 是 这 样 ， 问 题 已 经 得 到 解决 ;如 果 不 是 ,我 们 可 能 还 要 通过 语句 /中 的 其 他 变量 来 计 
AWA Px, On ERK i HARE x 的 节点 ， 则 我 们 可 以 考虑 节点 n 的 子 节点 加 和 p， 
来 确认 这 两 个 节点 是 否 代表 j 时 刻 菜 一 变量 的 值 。 如 果 m 节点 有 一 变量 而 p 节点 没有 ， 那 么 我 
们 可 以 递归 地 考虑 的 子 节点 。 最 后 ， 要 么 可 以 找到 一 种 计算 i 时刻 x 的 值 的 方法 ， 要 么 可 以 








705 
t 
706 


458 第 10 % 





断定 x 的 值 无 法 计算 。 如 果 找 到 了 计算 m 和 p 的 值 的 方法 ， 我 们 就 可 以 计算 它们 ， 并 在 节点 n 
运用 该 算 子 来 计算 ;时 刻 x 的 值 。。 


例 10.54 假设 执行 图 10-68b 中 的 代码 时 ， 在 语 名 (2) 处 发 生 了 一 个 错误 。 语 句 (2) 正 在 计算 
图 10-69 中 标记 为 * 的 节点 ， 而 且 计 算 该 值 的 第 一 条 源 代 介 语句 是 语句 (5)， 因 此 我 们 报告 在 语 
名 5 发 生 了 一 个 错误 。 ame ， 一 一 一 一 
在 图 10-70 中 ， 我 们 列表 给 出 在 源 代码 语句 ARE ae 
(5) 的 开始 和 优化 代码 语句 (29 的 开始 ， 与 源 代 
码 和 优化 代码 的 每 个 变量 相对 应 的 dag 节点 。 
节点 用 标号 来 表示 ， 标 号 是 一 个 运算 符号 或 者 
是 像 Ac 这 样 的 初始 值 符号 。 我 们 将 说 明 怎样 从 
时 刻 2' 的 变量 值 来 计算 时 刻 5 的 值 。 例 如 ， 如 
果 用 户 想 知道 a 的 值 ， 标 记 为 -的 节点 的 值 就 会 





被 给 出 。 在 时 刻 2 没有 变量 具有 该 值 ， 但 幸运 图 10-70 在 时 刻 > 和 时 刻 5 的 变量 值 
的 是 ， 变量 a 和 e 在 时 刻 2 具有 节点 -的 各 个 子 节点 的 值 ， 于 是 可 以 通过 计算 a-e MERR 
a 的 值 。 口 


现在 ， 让 我 们 来 回答 第 3 个 问题 ， 怎样 处 理 用 户 对 调试 器 的 调用 。 在 某 种 意义 上 ， 答 案 并 
不 重要 。 如 果 用 户 在 源 程 订 的 语句 后 设置 断 点 ， 我 们 可 以 在 该 块 的 开始 暂停 程序 的 执行 。 如 
果 用 户 想 在 语句 i 之 后 知道 某 个 变量 x 的 值 ， 可 以 从 带 注 释 的 dag 中 找到 代表 x 值 的 节点 ， 然 后 
从 该 块 的 变量 初始 值 中 计算 出 该 值 。 

另 一 方面 ， 如 果 尽 可 能 迟 地 调用 调试 器 ， 可 以 减少 调试 器 的 工作 ， 还 可 以 避免 计算 某 个 值 
导致 的 错误 。 很 容易 找到 优化 代码 中 最 后 一 条 语句 六 ,使 得 在 语句 j 之 后 调用 调试 器 。 这 样 做 ， 
对 用 户 来 说 ， 感 觉 是 在 源 程 序 语句 之 后 调用 调试 器 。 为 了 找到 这 样 的 语句 也， 令 S 是 dag 中 的 
节点 集合 ,该 集合 中 的 节点 对 应 于 源 程序 中 紧 跟 语句 i 之 后 的 某 个 变量 的 值 。 用 户 可 能 要 计算 
SEW AAA, Alt, REX s 中 每 个 节点 xn， 存在 某 一 个 kK >7 ， 使 得 在 优化 代码 的 时 刻 
k 某 个 变量 同 节点 n 相关 联 ， 我 们 就 可 以 在 优化 代码 中 语句 了 Y 之 后 设置 断 点 。 于 是 知道 ，n 的 
ERRERA, 之 后 是 可 用 的 ， 或 者 在 语句 六 之 后 的 某 一 时 刻 求 出 来 。 在 前 一 种 情况 下 ， 如 果 
在 语句 产 之 后 设置 断 点 ， 计 算 n 的 值 意义 不 大 ;而 在 后 一 种 情况 下 ， 语 句 产 之 后 可 用 的 值 足以 
ARE n fÉ. 


$10.55 再 次 考虑 图 10-68 中 的 源 代码 和 优化 代码 ， 假 设 用 户 在 源 代码 语句 (3) 之 后 设置 了 
一 个 断 点 。 为 了 找到 集合 5$， 考 察 图 10-69 的 dag， 并 找 出 在 时 刻 4， 有 哪些 节点 附带 有 源 程序 变 
量 ， 即 图 中 标记 为 ho。，Bo，Eo，+ 和 -的 节点 。 

现在 ， 再 次 考察 dag， 找 出 最 大 的 站 ， 使 得 集合 S 中 的 每 个 节点 在 绝对 大 于 j 的 时 刻 都 附 
带 有 优化 代码 的 某 个 变量 。 标 记 为 + -A E 的 节点 没有 问题 ， 因 为 它们 的 值 在 时 刻 %' 分别 由 
变量 8，a 和 e 携 带 。 节 点 Ao 和 Bo 限制 了 j 的 值 ，ho 和 Bo 中 最 早 改变 其 值 的 是 节点 Ao WA 
3 改变 了 它 的 值 。 因 此 , j= 2 是 产 的 最 大 可 能 值 。 也 就 是 说 ， 如 果 用 户 想 在 源 程序 语句 3 之 后 
设置 断 点 ， 我 们 可 以 在 语句 2' 之 后 为 其 设置 相应 的 断 点 。 口 


日 ”如 果 节点 n 的 值 的 计算 引起 另 一 个 错误 ， 则 会 有 细微 的 差别 。 我 们 必须 报告 用 户 该 错误 实际 上 早 就 出 现 了 ， 
即 在 计算 n 的 值 的 第 一 条 源 语 名 处 。 
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因为 不 存在 真正 的 好 解 ， 读 者 应 该 知道 例 10.55 的 微妙 之 处 。 如 果 在 调用 调试 器 之 前 ， 运 
行 优化 代码 并 穿 过 语句 2 ， 在 语句 2' 中 计算 bxe 的 值 时 可 能 出 错 ( 例如 下 溢 )， 这 个 错误 可 能 导 
致 调试 器 提前 被 调用 。 然而， 因为 和 语句 2' 对 应 的 计算 在 源 程序 中 直到 语句 5 才 会 出 现 ， 所 以 

告诉 用 户 该 错误 是 在 语句 5 出 现 。 在 语句 3 处 没有 调用 调试 器 ， 我 们 是 怎么 到 达 语 名 5 的 呢 ? 
用 户 对 此 可 能 感到 有 些 神秘 。 也 许 最 好 的 解决 方法 是 ,不 允许 产 如 此 大 ，、 以 致 存在 一 个 这 样 的 
优化 代码 语句 ，k < 六 ， 使 得 直到 设置 了 断 点 的 语句 i 之 后 ， 源 代码 才 计 算 r 所 计算 的 值 。 
10.13.2 全 局 优化 的 影响 

当 编 译 器 进行 全 局 优化 时 ， 对 符号 调试 器 来 说 ， 还 有 更 难 的 问题 需要 解决 ， 并 且 在 某 一 点 
常常 无 法 找到 变量 的 正确 值 。 归 纳 变 量 删除 和 全 局 公共 子 表 达 式 删除 这 两 个 重要 的 变换 不 会 产 
生 重 大 的 问题 ;两 种 情况 下 都 可 以 将 问题 局 限于 少数 几 个 块 内 ， 并 按 前 面 讨论 的 方式 进行 处 理 。 
10.13.3 ”归纳 变量 删除 

如 果 删 除 源 程序 中 的 归纳 变量 i， 以 利于 i 族 的 某 个 成 员 t， 那 么 i 和 t 之 间 就 存在 某 个 线性 
函数 。 如 果 我 们 采用 10.7 节 的 方法 ， 则 i 在 某 个 块 中 被 改变 ， 优 化 代码 也 将 在 相应 的 块 中 改变 t 
的 值 ， 所 以 i 和 t 之 间 的 线性 关系 总 是 成 立 。 因 此 ， 在 考虑 记录 某 个 块 中 给 t 赋 值 的 语句 ( 在 源 
程序 中 ， 是 给 i 赋值 的 语句 ) 之 后 ， 就 可 利用 t 的 线性 变换 为 用 户 提供 i 的 “当前 ” 值 。 

如 果 i 在 循环 之 前 没有 被 定义 ， 就 要 非常 小 心 ， 因 为 t 在 进入 循环 之 前 肯定 要 被 赋值 ， 并 
且 可 能 就 在 程序 中 ， 用 户 认 为 1 是 未 定义 的 地 方 ， 为 ;提供 了 一 个 值 。 幸 运 的 是 ， 通 常情 况 下 ， 
源 程序 中 的 归纳 变量 在 进入 循环 之 前 都 会 被 初始 化 ， 只 有 编译 器 产生 的 变量 (用户 不 会 想 要 它 
们 的 值 ) 在 循环 的 入 口才 会 不 被 定义 。 如 果 某 个 归纳 变量 i 不 属于 这 种 情况 ,那么 我 们 将 会 通 
到 一 个 类 似 于 代码 外 提 的 问题 ， 这 个 问题 将 在 下 面 进行 讨论 。 

10.13.4 全 局 公共 子 表达 式 删 除 

如 果 我 们 对 表达 式 a+b 执 行 全 局 公共 子 表达 式 删 除 ， 同 样 影响 了 有 限 数 目的 基本 块 。 如 果 
t 是 用 来 保存 a+b 的 值 的 变量 ， 那 么 在 某 些 计算 a+b 的 块 中 我 们 可 将 c := a + b RRM: 

t := atb 
coset 
采用 已 经 讨论 过 的 处 理 基本 块 的 方法 即 可 处 理 这 种 变化 。 

在 其 他 块 中 , 像 a := a+b 这 样 的 引用 可 以 用 a := t 来 蔡 换 。 为 了 用 前 面 的 方法 来 处 理 这 
种 情况 ， 只 需要 在 该 块 的 dag 中 注意 t 的 值 一 直 代 表 arb 节点 的 值 (代表 a+b 的 节点 只 会 在 源 
代码 的 dag 中 出 现 ， 而 不 会 在 优化 代码 的 dag 中 出 现 )。 

10.13.5 代码 外 提 

其 他 变换 处 理 起 来 比较 难 。 例 如 ， 假 设 把 循环 不 变 的 语句 s : a := b+c 移 到 循环 之 外 。 如 
果 在 循环 内 调用 调试 器 ， 我 们 将 不 知道 在 源 程序 中 语句 s 是 否 被 执行 过 ， 因 此 也 就 不 知道 a 的 当 
前 值 是 不 是 用 户 在 源 程 序 中 看 到 的 值 。 

一 种 可 能 的 办 法 是 在 优化 代码 的 循环 中 插入 一 个 新 变量 ， 该 变量 指示 a 是 否 在 循环 中 被 赋 
fA (这 个 变量 只 能 放 在 语句 s 原 来 的 位 置 上 )。 然 而 ， 这 种 策略 也 并 不 总 是 适用 ， 所 以 要 想 绝对 
可 靠 ， 只 能 使 用 真正 的 代码 ， 而 不 使 用 为 了 调试 构造 的 代码 。 

然而 有 一 种 特殊 的 情况 我 们 可 以 做 得 很 好 。 假 设 源 程序 包含 语句 s 的 块 B 把 循环 分 成 两 
个 节点 集合 : 支配 B 的 节点 和 B 所 支配 的 节点 。 此 外 ， 假 设 B 支 配 首 节 点 的 所 有 前 驱 ， 如 图 
10-71 所 示 。 于 是 程序 第 一 次 经 过 支配 B 的 块 时 ,我 们 可 以 假设 a 在 循环 中 没有 被 赋值 ， 而 程 
序 第 一 次 经 过 B 所 支配 的 块 时 ，a 在 语句 s 处 被 赋值 。 第 二 次 和 以 后 各 次 经 过 循环 时 ，a 都 会 
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在 "处 被 赋值 。 

如 果 对 调试 器 的 调用 是 由 运行 时 错误 引起 的 ， 则 第 
一 次 循环 时 极 有 可 能 发 现 错误 。 如 果 是 这 样 ， 我 们 只 需 
知道 错误 位 于 图 10-71 中 8 的 上 面 还 是 下 面 。 然 后 我 们 会 
知道 a 的 值 是 否 在 s 处 被 定义 ,或 者 a 的 值 是 否 是 源 程序 
中 a 在 循环 入 口 处 的 值 。 对 前 一 种 情况 ,我 们 只 和 需 打 印 优 
化 代码 产生 的 a 值 ， 对 后 一 种 情况 ， 我们 什么 都 不 能 做 ， 
除非 : 

1. 对 源 程 序 和 优化 程序 ， 调 试 器 都 有 可 用 的 到 达 定 
义 信 息 。 

2. 在 源 程序 中 存在 一 个 到 达 首 节点 的 a 的 惟一 定义 。 

3. 该 定义 还 是 到 达 调 试 器 被 调用 处 的 某 个 变量 x 的 
惟一 定义 。 


WIZ 
at 
ZTS 


图 10-71 将 循环 分 成 两 部 分 的 块 


如 果 这 些 条 件 都 满足 ， 那 么 我 们 可 以 打印 出 x 的 值 ， 它 也 就 是 a 的 值 。 

如 果 通 过 用 户 设 置 的 断 点 调用 调试 器 ， 则 读者 应 该 知道 这 一 行 的 椎 理 不 成 立 ， 我 们 没有 任 
何 理由 怀疑 我 们 正 第 一 次 经 过 该 循环 。 然 而 ， 如 果 利 用 用 户 设置 的 断 点 ， 在 优化 程序 中 加 入 一 
些 代码 ， 帮 助 调试 器 分 辩 程 序 是 否 第 一 次 经 过 循环 的 做 法 也 许 是 合理 的 。 然 而 这 种 方法 需要 修 


改 优化 代码 ， 所 以 可 能 不 适用 。 
练习 
10.1 考虑 图 10-72 中 的 和 矩阵 乘法 程序 。 


begin 
for i := 1 ton do 
for j := 1 to n do 
c[i,j] := 0; 
for i := 1 ton do 


for j := 1 ton do 
for k := 1 to n do 
c[i,j] := c[i,j] + ali,k] * b[k,j] 


图 10-72 矩阵 乘法 程序 





a) 假设 a, b, c 采用 静态 存储 分 配 ， 在 字 节 寻 址 内 存 中 每 个 字 由 4 个 字 节 构成 ， 请 


写 出 图 10-72 中 程序 的 三 地 址 语句 。 
b) 从 三 地 址 语句 生成 目标 机 器 代码 。 
c) 从 三 地 址 语句 构造 流 图 。 
d) 从 每 个 基本 块 中 删除 公共 子 表达 式 。 
e) 找 出 流 图 中 的 循环 。 
f) 将 循环 不 变 计算 移出 循环 。 
D 找 出 每 个 循环 的 归纳 变量 并 尽量 删除 它们 。 


h) 从 (g) 的 流 图 生成 目标 机 器 代码 ， 并 与 (b) 中 产生 的 代码 做 比较 。 
10.2 计算 练习 10.1(c) 的 流 图 和 练习 10.1(8) 的 流 图 的 到 达 定义 和 uwd 链 。 
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10.3 图 10-73 中 的 程序 用 得 选 法 在 一 个 规模 适当 的 数组 中 统计 从 2 到 n 的 素数 。 


fe 初始 化 #7 


.5 do 
a[i] then /» itt BR */ 
begin 


count := count + 1; 


for j := 2 * i ton by i do 
alj] := false 
/* j 能 被 i 除 «7 
end; 
count 








图 10-73 计算 素数 的 程序 


a) 假设 a 采 用 静态 存储 分 配 ， 把 图 10-73 中 的 程序 翻译 成 三 地 址 语句 。 

b) 从 三 地 址 语句 生成 目标 机 器 代码 。 

c) 从 三 地 址 语句 构造 流 图 。 

d) 给 出 (c) 中 流 图 的 支配 树 。 

e) 对 (c) 中 流 图 ， 指 出 其 回 边 和 它们 的 自然 循环 。 

f) 用 算法 10.7 将 循环 不 变 计算 移出 循环 。 

g) 尽 可 能 删除 归纳 变量 。 

h 尽量 将 复制 语句 传播 出 去 。 

i) 该 循环 能 收缩 吗 ? 如 果 能 则 执行 它 。 

j) 如 果 假 定 n 一 直 是 偶数 ， 每 次 展开 内 循环 一 次 。 现 在 可 以 执行 何 种 新 优化 ? 
10.4 假设 a 采用 动态 存储 分 配 ， 用 指向 a 的 第 一 个 字 的 指针 ptr ， 重 做 练习 10.3。 
10.5 针对 图 10-74 中 的 流 图 ， 计 算 如 下 信息 ; 

a) ud 链 和 du 链 。 

b) 每 个 块 末尾 的 活跃 变量 。 

c) 可 用 表达 式 。 







B, 


(3) c := a+b 
(4) ad := c-a 


B; 













(8) b := a+b 
B, 
(6) d := a+b (10) a := bed 

(7) @ := e+1 (tl) b ts a-a 


图 10-74 流 图 
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* 10.9 


* 10.13 


10.14 


10.15 


10.16 
** 10.17 


10.18 


图 10-74 中 能 否 进 行 常量 合并 ?如 果 能 则 执行 它们 。 

图 10-74 中 有 公共 子 表 达 式 吗 ? 如 果 有 则 删除 它们 。 

如 果 从 p 点 出 发 的 任何 路 径 上 ， 在 计算 任何 运算 对 象 之 前 ， 都 要 先 计算 表达 式 e, 
则 称 表 达 式 e 在 点 p 非常 忙 。 按 照 10.6 节 的 模式 给 出 .个 数据 流 算法 找 出 所 有 的 非 
常 忙 表 达 式 。 你 使 用 什么 样 的 聚合 操作 符 ” 信息 传播 是 前 向 的 还 是 后 向 的 ? 将 你 的 
算法 应 用 到 图 10-74 中 的 流 图 上 。 

如 果 表 达 式 e 在 点 p 非常 已， 通过 在 点 p 计算 e， 并 保存 其 值 以 备 后 用 ， 这 样 可 以 
提升 e。( GER: 这 种 优化 通常 只 能 节省 时 间 ， 而 不 能 节省 空间 。) 给 出 一 个 提升 非 
常 忙 表达 式 的 算法 。 

图 10-74 中 有 哪些 表达 式 可 以 提升 吗 ?” 如 果 有 则 提升 它们 。 

如 果 可 能 ， 将 练习 10.6、 练 习 10.7 和 练习 10.10 的 改进 中 引 人 的 复制 步骤 传播 出 去 。 
块 序列 Bi, , Be 中 ， 对 1<i<K，B 是 B 的 惟一 前 驱 ， 而 B 没有 惟一 的 前 驱 ， 
则 称 该 块 序列 是 一 个 扩展 基本 块 。 从 下 列 图 中 ， 找 出 在 下 图 中 每 个 节点 结束 的 扩展 
基本 块 : 

a) 图 10-39。 

b) 练习 10.1(c) 中 构造 的 流 图 。 

c) 图 10-74。 

给 出 一 个 基于 n 节点 流 图 且 运 行 时 间 为 0(n) 的 算法 ， 找 出 在 每 个 节点 结束 的 扩展 
基本 块 。 

把 每 个 扩展 基本 块 当 作 基 本 块 处 理 ， 不 用 做 任何 数据 流 分 析 就 可 以 完成 一 些 块 间 的 
代码 优化 。 给 出 在 扩展 基本 块 内 执行 如 下 优化 的 算法 ， 并 指出 每 种 情况 中 一 个 扩展 
基本 块 中 的 变化 对 其 他 扩展 基本 块 的 影响 。 

a) 公共 子 表 达 式 删除 。 

b) 常量 合并 。 

c) 复制 传播 。 

对 练习 10.1(c) 中 的 流 图 ， 

a) 找 出 该 图 的 石和 化 简 序 列 。 

b) 找 出 区 间 图 序列 。 

c) 什么 是 限制 流 图 ”该 流 图 是 可 约 的 吗 ? 

对 图 10-74 中 的 流 图 重 做 练习 10.15。 

证 明 下 列 条 件 是 等 价 的 (它们 是 “可 约 流 图 ”的 可 选 定义 )。 

a) T1722 化 简 的 极限 是 单个 节点 。 

b) 区 间 分 析 的 极限 是 单个 节点 。 (no) 

(a) 





c) 流 图 的 边 可 分 为 两 类 : 一 类 边 形成 无 环 图 ， 
另 一 类 边 是 由 头 支 配 尾 的 边 组 成 的 回 边 。 


d) 该 流 图 没有 图 10-75 所 示 形 式 的 子 图 。 其 中 ， ZN 
no 是 初始 节点 ， 而 且 no, a, b 和 c 都 互 不 相 OY) 
同 (除了 有 可 能 a = no )。 第 头 表 示 不 相交 节 图 10.75 可 约 流 图 的 禁止 子 图 
点 路 径 〈 端点 除外 )。 “ 


对 10.8 节 讨论 的 带 有 指针 的 语言 ， 给 出 计算 (a) 可 用 表达 式 和 (b) 活 路 变量 的 算法 。 确 
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10.19 
10.20 
10.21 
** 10.22 


* 10.23 


* 10.24 


10.25 


* 10.26 


** 10.27 


10.28 


** 10.29 
10.30 


保 对 (b) 中 的 gen, kill, use 和 def 做 保守 假设 。 

用 10.8 节 的 模型 给 出 计算 过 程 间 到 达 定 义 的 算法 ， 确 保 对 真实 解 做 保守 的 近似 假 
设 。 

假设 参数 传递 采用 传 值 方式 而 不 是 传 地 址 方式 ， 那 么 两 个 名 字 可 以 互 为 别名 吗 ? RK 
用 复制 -恢复 方式 传 值 又 如 何 ? 

练习 10.1(c) 中 的 流 图 的 深度 是 多 少 ? 

证 明 可 约 流 图 的 深度 不 小 于 产生 单个 节点 所 必须 执行 的 区 间 分 析 次 数 。 

将 10.8 节 的 基于 结构 的 数据 流 分 析 算 法 推广 到 10.11 节 的 通用 数据 流 框架 上 。 为 保证 
算法 正常 运转 ， 应 对 F 和 人 做 何 种 假设 ? 

设想 被 传播 的 值 是 表达 式 所 有 可 能 的 划分 (只 有 当 两 个 表达 式 具 有 相同 的 值 时 ， 它 
们 才 属 于 同一 个 等 价 类 )， 我 们 可 以 得 到 一 个 有 趣 的 且 功 能 强大 的 数据 流 分 析 框 架 。 
为 了 避免 列 出 所 有 的 无 限 个 可 能 的 表达 式 ， 我 们 可 以 通过 只 列 出 与 其 他 表达 式 等 价 
的 最 小 的 表达 式 来 表示 这 些 值 。 例 如 ， 如 果 我 们 执行 下 面 的 语句 : 


A 
c 


B 
A+D 


那么 我 们 将 得 到 如 下 最 小 的 等 价 关系 A=B，c=RAr+rD。 由 此 可 得 其 他 等 价 关系 ， 
如 C=B+D MA+E=B+E, 但 没有 必要 一 一 列 出 它们 。 

a) 对 这 种 框架 而 言 ， 合 适 的 与 〈 或 聚合 ) 操作 符 是 什么 ? 

b) 给 出 表示 值 的 数据 结构 和 实现 与 操作 符 的 算法 。 

c) 同 语句 相关 联 的 合适 的 函数 是 什么 ? 同 A := B+C 这 样 的 赋值 语句 相关 联 的 函数 
对 一 个 划分 的 作用 是 什么 ? 

d) 该 框架 具有 分 配 性 吗 ? 是 单调 的 吗 ? 

如 何 使 用 由 练习 10.24 的 框架 搜集 的 数据 执行 下 列 优化 : 

a) 公共 子 表达 式 删 除 。 

b) 复制 传播 。 

c) 常量 合并 。 

给 出 下 列 栅 格 图 上 的 关系 的 形式 化 证 明 : 

a) WR asb Hasc, Mas(bAc). 

b) 如 果 as(bAc), M asb, 

c) 如 果 asb A bsc, Masc 

d iR asb H bsa, Wla=b, 

证 明 下 列 条 件 是 深度 优先 顺序 的 迭代 数据 流 算法 在 深度 加 2 遍 之 内 收敛 的 充分 必要 

条 件 : 对 所 有 的 函数 /和 8 及 值 a, 

f(g (0) = flag (aha 

证 明 到 达 定 义 和 可 用 表达 式 框架 满足 练习 10.27 中 的 条 件 。 注 意 : 事实 上 ， 这些 框 

架 在 深度 加 1 遍 之 内 收敛 。 

单调 性 意味 着 练习 10.27 中 的 条 件 成 立 吗 ? 分 配 性 呢 ? 反之 成 立 吗 ? 

在 图 10-76 中 我 们 看 到 两 个 基本 块 ， 第 一 个 是 原始 代码 ， 第 二 个 是 优化 代码 。 

a) 为 图 10-76a 和 图 10-76b 中 的 块 构造 dag。 假 设 在 出 口 只 有 J 是 活路 的 ， 验 证 这 两 个 
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10.31 


10.32 


10.33 
10.34 
* 10.35 


* 10.36 
* 10.37 


* 10.38 
* 10.39 
* 10.40 

10.41 
* 10.42 


* 10.43 


10.44 
** 10.45 
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块 是 等 价 的 。 
b) 在 每 个 节点 上 ， 将 变量 值 已 知 的 变量 标注 到 带 时 间 的 dag 上 。 
c) 如 果 一 个 错误 发 生 在 语句 (1 到 (4 人) 的 各 个 语句 上 ， 请 分 别 指 出 错误 发 生 在 
10-76a 中 的 哪 条 语句 上 。 


(1) E := A+B 


d) 对 (c) 中 的 每 个 错误 ， 指 出 图 2 := B-C 
10-76a 中 哪个 变量 是 可 求 值 : (3") := E#D 


(4') := E+F 


的 ? 我 们 应 该 怎么 求 值 ? 

e) 假设 允许 使 用 形 如 “如 果 a + 
b=c 则 a=c-b ”的 有 效 代数 
法 则 ，(d) 的 答案 会 有 变化 吗 ? moge BGR ICES 

推广 例 10.14， 考 虑 带 有 break 语 a) 原始 代码 b) 优化 代码 

句 的 任意 集合 ， 并 将 其 推广 到 包含 continue 语句 。contuinue 语 句 不 中 断 内 循环 ， 而 

是 直接 进入 循环 的 下 一 次 近代。 提示 : 使 用 10.10 节 提出 的 用 于 可 约 流 图 的 方法 。 

证 明 : 在 算法 10.3 中 ， 定 义 的 in 集 和 our 集 不 会 减 小 。 同 样 地 ， 证 明 ; 在 算法 10.4 

中 ， 表 达 式 的 in 集 和 oui 集 不 会 增 大 。 

将 归纳 变量 删除 算法 10.9 推 广 到 乘法 常数 允许 为 负数 的 情况 。 

将 10.8 节 中 确定 指针 指向 的 算法 推广 到 允许 指针 指向 其 他 指针 的 情况 。 

当 估计 下 面 的 每 个 集合 时 ， 指 出 太 大 估计 是 保守 的 ， 还 是 太 小 估计 是 保守 的 ? 按照 

信息 的 预定 用 途 解释 你 的 答案 。 

a) 可 用 表达 式 。 

b) 被 过 程 改 变 的 变量 。 

c) 没有 被 过 程 改 变 的 变量 。 





_d) 属于 给 定 族 的 归纳 变量 。 


e) 到 达 给 定点 的 复制 语句 。 

对 算法 10.12 进 行 求 精 ， 计 算 在 给 定点 的 给 定 变 量 的 别名 。 

针对 下 面 的 参数 传递 方式 ， 试 修改 算法 10.12: 

a) 传 值 。 

b) 复制 -恢复 传递 。 

证 明 算 法 10.13 收 全 到 一 个 确实 被 改变 的 变量 的 超 集 ( 不必 是 真 超 集 )。 

推广 算法 10.13， 在 允许 过 程 定 值 变 量 的 情况 下 ， 确 定 被 改变 的 变量 。 

证 明 在 每 个 区 间 图 中 ， 每 个 节点 代表 原 流 图 的 一 个 区 域 。 

证 明 算法 10.16 正 确 地 计算 出 了 每 个 节点 的 支配 节点 的 集合 。 

修改 算法 10.17( 基于 结构 的 到 达 定 义 )， 只 计算 指定 的 小 区 域 的 到 达 定义 ， 而 不 要 
求 整个 流 图 一 次 都 装 在 内 存 中 。 确 保 你 的 结果 是 保守 的 。 修 改 你 的 算法 以 适合 于 可 
用 表达 式 。 哪 一 个 更 有 可 能 提供 有 用 的 信息 ? 

在 10.10 节 ， 基 于 T 和 7 化 简 的 合并 ,我 们 提出 了 对 算法 10.17 的 一 种 加 速 。 试 证 
明 这 种 修正 的 正确 性 。 

将 10.11 节 的 迭代 方法 推广 到 后 向 流 (backward-flowing) 问题 。 

通过 证 明 对 每 条 长 度 为 i 的 路 径 P， 经 过 i 次 迭代 以 后 ，in[B;] sf[T]， 证 明 当 算 
法 10.18 收 敛 时 ， 结 果 解 <mop 解 。 
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10.46 图 10-77 是 10.12 节 介绍 的 假设 语言 程序 的 流 图 ， 使 用 算法 10.19 找 出 每 个 变量 的 类 型 


的 最 佳 估计 。 






use a as int 


图 10-77 类 型 推断 的 程序 例子 
参考 文献 注释 


从 Cocke and Schwartz[1970], Abel and Bell[1972] 、Schaefer[1973]、Hecht[1977] 以 及 
Muchnick and Jones[1981] 中 可 以 获得 更 多 关于 代码 优化 的 信息 。Allen[1975] 给 出 了 一 份 关于 程 
序 优 化 的 参考 文献 列表 。 

许多 优化 编译 器 在 文献 中 都 有 记载 。Ershov [1966] 讨 论 了 一 个 早期 的 使 用 复杂 优化 技术 构 
造 的 编译 器 。Lowry and Medlock[1969] 以 及 Scarborough and Kolsky[1980] 中 详细 描述 了 Fortran 
优化 编译 器 的 构造 方法 。Busam and Englund[1969] 以 及 Metcalf[1982] 则 给 出 了 更 多 的 Fortran 优 
WRR, Wulf et al. [1975] 讨 论 了 一 个 颇 有 影响 的 Bliss 优 化 编译 器 的 设计 。 

Allen et al. [1980] 描 述 了 一 个 程序 优化 的 试验 性 系统 。Cocke and Markstein[1980] 阐述 了 一 
种 类 PLVI 语 言 各 种 优化 的 有 效 性 。Anklam Cutler, Heinen, and MacLaren[1982] 描 述 了 用 于 
PLA 和 C 语 言 编译 器 的 优化 变换 的 实现 。Auslander and Hopkins[1982] 发 表 了 一 个 PLVI 变 体 的 编 
译 器 ， 它 使 用 一 种 简单 的 算法 来 产生 低层 中 间 代 码 ， 这 种 代码 进而 又 被 全 局 优化 变换 所 改进 。 
Freudenberger，Schwartz, and Sharir[1983] 传 授 了 设计 SETL 优 化 器 的 经 验 。Chow[1983] 发 表 了 
一 个 可 移植 的 、 与 机 器 无 关 的 Pascal 优 化 器 上 的 实验 。Powell[1984] 则 描述 了 一 个 可 移植 的 、 与 
机 器 无 关 的 Modula-2 优 化 编译 器 。 

虽然 在 Allen[1970] 和 Cocke[1970] 前 ， 各 种 不 同 的 数据 流 分 析 方法 已 经 在 使 用 ， 因 为 他 们 
两 人 联合 发 表 了 关于 该 技术 的 Allen and Cocke[1976]， 我 们 仍然 将 Allien[1970] 和 Cocke[1970] 视 
为 数据 流 分 析 技 术 系 统 研 究 的 开端 。 

10.5 节 介绍 的 语法 制导 数据 流 分 析 已 经 被 用 在 Bliss ( Wulf et al. [1975]，Geschke[1972] )、 
SIMPL ( Zelkowitz and Bail[1974] ) 和 Modula-2 ( Powell[1984] ) 中 。Hecht and Schaffer[1975]、 
Hecht[1977] 以 及 Rosen[1977] 对 该 类 算法 进行 了 更 多 的 讨论 。 

10.6 节 讨论 的 迭代 数据 流 分 析 方 法 可 以 追溯 到 Vyssotsky( 参 见 Vyssotsky and Wegner[1963])， 718 
他 在 1962 年 的 一 个 Fortran 编 译 器 上 使 用 了 该 方法 。 采 用 深度 优先 顺序 改善 编译 器 效率 的 方法 来 (719 
自 Hecht and Ullman[1975]。 
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Cocke[1970] 开 创 了 区 间 数 据 流 分 析 的 先河 。Kennedy[1971] 创 造 性 地 将 该 方法 用 于 解决 像 
活路 变量 这 样 的 后 向 数据 流 问 题 。 如 果 被 优化 的 语言 很 少 产生 不 可 约 流 图 ， 那 么 就 有 理由 相信 
按照 Kennedy{f1976] 的 方法 ， 基 于 区 间 的 方法 在 某 种 程度 上 比 迭 代 法 更 有 效 。 基 于 Ti 和 7 的 方法 
的 变 体 来 自 UllIman[19731]。Graham and Wegman[1976] 给 出 了 一 个 某 种 程度 上 更 快 的 版 本 ， 该 
版 本 利用 了 这 样 的 事实 : 大 部 分 代码 区 域 只 有 一 个 出 口 。 

Allen[1970] 中 给 出 了 可 约 流 图 的 最 初 定义 , 即 可 约 流 图 在 迭代 区 间 分 析 下 将 变 成 单个 节点 。 
等 价 的 描述 可 以 在 Hecht and UHman[1972 ，1974] 、Kasyanov[1973] 以 及 Tarjanf1974b] 中 找到 。 
不 可 约 流 图 的 节点 分 裂 来 自 Cocke and Miller[1969]。 

Kosaraju[1974], Kasami, Peterson, and Tokura[1973] 以 及 Cherniavsky，Henderson，and 
Keohane[1976] 中 描述 了 用 可 约 流 图 作为 结构 化 控制 流 模型 的 思想 。Baker[1977] 描 述 了 它们 在 
程序 结构 化 算法 中 的 用 途 。 

用 于 和 迭代 数据 流 分 析 的 概 格 理论 方法 始 于 Kildall{1973]。Tennenbaum[1974] 和 Wegbreit 
[1975] 给 出 相似 的 方程 式 。Kam and Ullman[1976] 提 出 了 使 用 深度 优先 顺序 的 Kildal 算 法 的 高 
效 版 本 。 

在 Kildall 假 定 分 配 性 条 件 〈 例 10.42 描 述 了 他 的 常量 计算 框架 ， 这 类 框架 实际 上 并 不 满足 该 
条 件 ) 成 立 的 同时 ,可 以 从 许多 给 出 数据 流 算法 的 论文 中 发 觉 单调 性 的 充分 性 ， 这 些 论文 包括 
Tennenbaum[1974], Schwartz[1975a, b], Graham and Wegman[1976]、Jones and 
Muchnick[1976], Kam and Ullman[1977] 以 及 Cousot and Cousotf1977] 等 。 

由 于 不 同 的 算法 需要 对 数据 做 不 同 的 假设 ，Kam and Ullman[1977]、Rosen[1980] 和 
Tarjan[1981] 提 出 了 关于 特定 算法 需要 何 种 特性 的 理论 。 

从 Kildall 的 论文 可 以 得 到 另外 的 指导 ， 就 是 对 处 理 他 所 介绍 的 特定 数据 流 ( 例 10.42 ) 算法 
进行 改进 。 一 个 主要 的 思想 是 不 必 把 栅 格 元 素 看 作 是 原子 的 ， 但 是 我 们 可 以 利用 这 样 的 事实 : 
它们 确实 是 从 变量 到 值 的 映射。 参见 Reif and Lewis{1977] 以 及 Wegman and Zadeck[1985]。 
Kou[1977] 还 将 这 些 思想 用 在 更 传统 的 问题 上 。 

Kennedyf1981] 是 数据 流 分 析 技 术 的 综述 ， 而 Cousot[198]] 则 概述 了 栅 格 理论 的 思想 。 

Gearf1965] 介 绍 了 代码 外 提 和 归纳 变量 删除 的 约束 形式 等 基本 循环 优化 。Alien[1969] 是 一 
篇 关于 循环 优化 的 重要 论文 ，Allen and Cocke[1972] 以 及 Waite[1976b] 在 该 领域 进行 了 更 广泛 的 
GFE. Morel and Renvoisef1979] 描 述 了 同时 删除 循环 中 的 宛 余 和 不 变 计 算 的 算法 。 

10.7 节 讨论 的 归纳 变量 删除 技术 是 在 Lowry and Medlock[1969] 的 基础 上 提出 的 。 想 获知 更 
好 的 算法 ， 请 参阅 Allen，Cocke，and Kennedy[1981]。 

关于 循环 问题 的 一 些 算法 ,诸如 判定 是 否 存 在 一 条 从 a 到 b 但 不 经 过 c 的 路 径 ， 这 里 并 没有 
详细 论述 。 这 些 问 题 可 以 采用 Wegman[1983] 的 有 效 算法 来 解决 。 

虽然 Lowry 和 Medlock 将 支配 节点 的 一 般 思 想 归功 于 Prosser[1959]， 但 是 我 们 仍然 认为 用 于 
循环 发 现 和 执行 代码 外 提 的 支配 节点 是 由 Lowry and Medlock[1969] 开 创 的 。 查 找 支配 节点 的 算 
法 10.16 是 由 Purdom and Moore[19721 以 及 Aho and Uliman[1973a] 各 自 独立 发 现 的 。 采 用 深度 优 
先 顺序 加 速算 法 的 方法 来 自 Hecht and Ullman[1975]， 而 完成 该 工作 的 最 有 效 的 渐 近 方法 则 来 
自 于 Tarjan{1974a]。Lengauer and Tarjan{1979] 描 述 了 一 种 适合 实际 应 用 的 寻找 支配 节点 的 高 效 
算法 。 

别名 和 过 程 间 分 析 的 研究 始 于 Spilman[1971] 和 Allen[1974]。 现 在 已 经 有 一 些 比 10.8 节 所 介 
绍 的 方法 更 有 效 的 方法 。 一 般 地 ， 这 些 方法 处 理 程序 的 各 个 点 的 别名 关系 ， 以 防止 我 们 的 简单 
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算法 “发 现 ” 的 不 可 能 的 别名 对 。 有 关 著 作 包括 Barth[19781]、Banning[1979] 以 及 Weihl[1980]。 
还 可 以 参阅 Ryder[1979] 关 于 调用 图 的 构造 。 

Hennessy[1981] 讨 论 了 一 种 与 过 程 间 分 析 类 似 的 问题 ， 即 异常 对 程序 数据 流 分 析 的 影响 。 

Tennenbaum[1974] 是 一 篇 通过 数据 流 分 析 确 定 类 型 的 重要 论文 ，10.12 节 的 讨论 就 是 以 该 
论文 为 基础 的 。Kaplan and Ullman[1980] 给 出 了 一 种 更 好 的 类 型 检测 算法 。 

10.13 节 关于 优化 代码 的 符号 调试 的 讨论 来 自 Hennessy[1982]。 

许多 论文 试图 评价 各 种 优化 所 带 来 的 改进 。 优 化 的 价值 似乎 高 度 依 赖 于 被 编译 的 语言 。 读 
者 可 能 希望 参考 Knuth[1971b] 中 对 Fortran 优 化 的 经 典 研究 ， 或 参考 以 下 文献 .Gajewskal1975]、 
Palm[1975]、Cocke and Kennedy[1976]、Cocke and Markstein[1980] 、Chow[1983]、Chow and 
Hennessy[1984] 以 及 Powell[1984]。 

我 们 在 此 没有 包括 的 另 一 个 优化 问题 是 集合 理论 语言 SETL 这 样 的 “ 超 高 级 ”语言 的 优化 ， 
要 讨论 这 个 话题 ， 我 们 需要 改变 底层 算法 和 数据 结构 。 该 领域 的 主要 优化 是 推广 的 归纳 变量 删 
除 ， 可 以 在 Earley[1975b]、Fong and Ullman[1976], Paige and Schwartz[1977] 以 及 Fong[1979] 
中 找到 相关 论述 。 

男 一 个 超 高 级 语言 优化 的 主要 步骤 是 数据 结构 的 选择 ， 可 以 从 Schwartz[1975a,，b]、Low 
and Rovner[1976] 以 及 Schonberg Schwartz, and Sharir[1981] 中 找到 相关 话题 的 论述 。 

我 们 也 没有 谈 及 增 量 式 代 码 优化 。 如 果 采 用 增 量 式 代 码 优化 ， 对 程序 进行 小 的 修改 不 需要 
对 程序 进行 完全 的 重新 优化 。Ryder[1983] 讨 论 了 增 量 式 数据 流 分 析 Pollock and 
Soffa[1985] 则 试图 对 基本 块 进行 增 量 式 代码 优化 。 

最 后 应 该 提 及 的 是 许多 已 经 应 用 到 数据 流 分 析 中 的 一 些 技 术 。Backhousef1984] 描 述 基于 与 
语法 分 析 器 有 关 的 转换 图 ， 使 用 其 中 一 种 技术 进行 错误 恢复 。Harrison[19771 以 及 Suzuki and 
Ishihata[1977] 讨 论 了 它 在 编译 时 数组 边界 检查 中 的 应 用 。 

除了 代码 优化 以 外 ， 编 译 时 程序 错误 的 静态 检查 是 数据 流 分 析 最 重要 的 用 途 。Fosdick and 
Osterweil[1976] 是 一 篇 很 重要 的 论文 ， 而 Osterweil[1981]、Adrion，Bronstad, and Cherniavsky 
[1982] 以 及 Freudenberger[1984] 则 给 出 了 一 些 更 新 的 研究 成 果 。 


第 11 章 ”编写 一 个 编译 器 


了 解 了 编译 器 设计 的 原理 、 技 术 和 工具 以 后 ， 假 设 现在 我 们 想 要 编写 一 个 编译 器 。 预 先 制 
订 一 些 计 划 可 以 使 实现 工作 更 加 快捷 顺利 地 进行 。 本 章 将 简要 介绍 编译 器 构建 中 出 现 的 一 些 实 
现 问题 ， 大 部 分 内 容 都 围绕 着 利用 UNIX 操作 系统 及 其 工具 来 编写 编译 器 这 一 主题 。 


11.1 编译 器 设计 


为 了 编译 新 的 源 语言 ， 或 为 了 产生 新 的 目标 语言 ， 或 二 者 均 需 要 时 ， 可 能 需要 编写 一 个 新 
的 编译 器 。 利 用 本 书 中 介绍 的 框架 ， 我 们 最 终 会 设计 出 一 个 由 一 组 模块 构成 的 编译 器 。 有 几 个 
不 同 的 因素 会 影响 这 些 模块 的 设计 和 实现 。 

11.1.1 源 语言 问题 

语言 的 “规模 ”会 影响 这 些 模 块 的 规模 和 数量 。 尽 管 语言 的 规模 还 没有 一 个 明确 的 定义 ， 
但 与 Ratfor (一 个 Fortran“ 有 理 数 ” 预 处 理 器 ，Kernighan[1975] ) 或 者 EQN ( 一 种 数学 排版 语 
言 ) 这 样 的 小 语言 的 编译 器 相 比 ， 显 然 Ada 或 者 PL 的 编译 器 就 比较 大 而 且 较 难 实现 。 

另 一 个 重要 的 因素 是 构建 编译 器 的 过 程 中 源 语言 变化 的 程度 。 尽 管 源 语言 规范 可 能 看 起 来 
是 不 可 变 的 , 但 在 构造 编译 器 的 整个 生命 周期 中 几乎 没有 保持 不 变 的 语言 。. 黄 至 成 熟 的 语言 也 
是 如 此 ， 尽 管 变化 很 慢 。 例 如 ， 现 在 的 Fortran 版 本 与 1957 年 的 版 本 相 比 已 经 有 了 显著 的 变化 。 
Fortran 77 中 的 循环 语句 、 乃 尔 瑞 斯 ( Hollerith ) 语句 及 条 件 语句 与 最 初版 本 中 的 这 些 语句 已 经 
有 了 很 大 的 不 同 。Rosler[1984] 记 录 了 C 的 演变 过 程 。 

另 一 方面 ， 新 的 试验 性 语言 在 其 实现 过 程 中 可 能 会 发 生 突变 。 将 语言 的 编译 器 工作 原型 演 
化 成 另 一 个 编译 器 , 使 其 目标 语言 能 满足 某 些 特定 用 户 群 的 需要 , 这 是 一 种 开发 新 语言 的 途径 。 
许多 像 AWK 和 EQN 这 样 的 最 初 依赖 于 UNIX 系统 的 “小 ”语言 都 是 这 样 开 发 出 来 的 。 

因此 ， 一 个 编译 器 编写 者 在 编译 器 构造 的 生命 期 内 可 能 需要 参与 一 定量 源 语言 定义 的 修订 
工作 。 模 块 化 的 设计 以 及 工具 的 使 用 有 助 于 应 付 这 些 变化 。 例 如 ， 直 接 编写 词法 分 析 器 和 语法 
分 析 器 的 代码 ， 与 用 生成 器 来 实现 词法 分 析 器 和 语法 分 析 器 比较 起 来 ， 后 者 能 使 编写 者 更 游 丸 
有 余地 应 付 语 言 定 义 中 的 语法 变化 。 

11.12 目标 语言 问题 

目标 语言 的 性 质 、 约 束 以 及 运行 环境 对 于 编译 器 的 设计 以 及 代码 生成 策略 都 有 很 大 的 影响 ， 
因此 需要 仔细 地 加 以 考虑 。 如 果 目 标语 言 是 新 语言 ， 编 译 器 的 编写 者 最 好 能 确定 它 的 正确 性 并 
对 其 时 序 有 充分 的 理解 。 新 机 器 或 新 汇编 器 可 能 有 一 些 编译 器 可 以 发 现 的 bug, 但 目标 语言 的 
bug 可 能 会 加 重 编译 器 本 身 的 调试 任务 。 

一 个 成 功 的 源 语 言 可 能 会 在 多 个 目标 机 器 上 实现 。 如 果 某 语言 不 断 地 被 沿用 下 来 ， 该 语言 
的 编译 器 就 需要 为 几 代 目标 机 器 生成 新 的 目标 代码 。 机 器 硬件 的 进一步 发 展 似乎 是 必然 的 ， 因 
此 可 重 置 目标 的 编译 器 的 研究 是 值得 探索 的 。 于 是 中 间 语 言 的 设计 变 得 重要 起 来 ， 因 为 这 可 以 
将 与 硬件 相关 的 细节 限制 在 少数 几 个 模块 中 。 

11.1.3 性 能 标准 

有 几 个 考虑 编译 器 性 能 的 指标 : 编译 器 速度 、 代 码 质量 、 错 误诊 断 、 可 移植 性 和 可 维护 性 。 

这 些 标准 的 轻重 不 能 明显 地 区 分 开 来 ， 而 且 编 译 器 规范 对 其 中 的 许多 参数 也 未 做 说 明 。 例 如 ， 





~ 


[724| 


~ 
nN 
ww 


470 l Ë 


编译 的 速度 是 否 比 目标 代码 的 速度 重要 ? 有 用 的 错误 信息 和 错误 恢复 到 底 有 多 重要 ? 

要 提高 编译 器 的 速度 ， 我 们 可 以 尽 可 能 地 减少 模块 的 数量 和 编译 的 遍 数 ， 或 许可 以 一 遍 直 
接生 成 机 器 代码 。 但 是 采用 这 种 做 法 ， 我 们 就 不 可 能 得 到 能 生成 高 质量 代码 的 编译 器 ， 更 不 用 
说 得 到 易 维护 的 编译 器 了 。 

对 可 移植 性 来 说 要 考虑 两 方面 : 可 重 置 目标 能 力 〈retargetability ) 和 可 变换 宿主 机 能 力 
( rehostability )。 具 有 可 重 置 目标 能 力 的 编译 器 通过 简单 的 修改 就 可 以 为 新 的 目标 语言 生成 代码 。 
具有 可 变换 宿主 机 能 力 的 编译 器 是 很 容易 移植 到 另 一 台 机 器 上 的 编译 器 。 因 为 用 于 特定 机 器 的 
编译 器 可 以 放心 地 对 目标 机 器 做 一 些 假设 ， 而 可 移植 的 编译 器 则 不 能 ， 因 此 可 移植 的 编译 器 可 
能 不 如 专门 为 特定 机 器 设计 的 编译 器 高 效 。 


11.2 编译 器 开发 方法 


实现 编译 器 有 几 个 常用 的 一 般 方 法 。 最 简单 的 办 法 是 将 现成 的 编译 器 重新 确定 目标 机 器 或 
者 重新 确定 宿主 机 器 。 如 果 找 不 到 合适 的 现成 编译 器 , 可 以 使 用 已 知 的 类 似 语言 编译 器 的 结构 ， 
使 用 组 件 生成 工具 或 手工 方式 实现 相应 的 组 件 。 需 要 全 新 的 编译 器 结构 的 情况 是 很 少见 的 。 

不 管 采用 什么 方法 ， 编 译 器 的 编写 是 软件 工程 中 的 一 种 训练 。 软 件 开发 中 的 一 些 经 验 教训 
( 可 参见 Brook[1975] ) 可 以 用 来 提高 最 终 产 品 的 可 靠 性 和 可 维护 性 。 一 个 能 很 好 地 适应 变化 的 
设计 方案 将 使 编译 器 能 与 语言 同步 发 展 。 在 这 点 上 使 用 编译 器 构建 工具 将 有 很 大 的 帮助 。 
自 举 

编译 器 是 一 个 很 复杂 的 程序 , 所 以 我 们 往往 愿意 用 一 种 比 汇编 语言 更 友好 的 语言 来 编写 它 。 
在 UNIX 的 编程 环境 下 ， 编 译 器 通常 用 C 语言 编写 ， 甚 至 连 C 的 编译 器 也 用 C 来 编写 。 使 用 语 
言 提 供 的 功能 来 编译 该 语言 自身 ， 这 就 是 自 举 (bootstrapping ) 的 实质 。 下 面 我 们 将 讨论 如 何 
用 自 举 来 构建 编译 器 ， 以 及 如 何 通过 修改 后 端 将 它们 从 一 个 机 器 移植 到 另 一 个 机 器 上 。 在 20 世 
纪 50 年 代 中 期 人 们 就 已 经 知道 了 自 举 的 基本 思想 (Strong et al. [1958] )。 

自 举 可 能 会 引出 这 样 的 问题 ,“ 第 一 个 编译 器 是 怎样 被 编译 的 ? ”。 这 个 问题 听 起 来 就 像 问 
“到 底 是 先 有 鸡 呢 还 是 先 有 蛋 ? ”。 但 这 个 问题 本 身 却 很 容易 回答 。 为 了 获得 答案 我 们 先 看 看 
Lisp 是 怎样 成 为 一 种 编程 语言 的 。McCarthy[1981] 中 谈 到 : 在 1958 年 后 期 Lisp 是 一 种 编程 符 
号 ， 用 于 编写 函数 ， 然 后 用 手工 将 它们 翻译 成 汇编 语言 并 运行 。 一 个 Lisp 解释 器 的 实现 却 意 
外 地 诞生 了 。McCarthy 原 想 说 明 Lisp 是 描述 函数 的 符号 ， 他 称 Lisp“ 比 图 灵机 或 者 递归 函数 
论 中 使 用 的 一 般 的 递归 定义 还 要 规整 "， 于 是 他 用 Lisp 写 了 一 个 函数 eval[e,a] ， 该 函数 将 一 个 
Lisp RER e 作为 一 个 参数 。S. R. Russell 注意 到 函数 eval 可 以 作为 Lisp 的 解释 器 ， 于 是 对 它 
进行 手工 编码 ， 这 样 就 使 Lisp 成 为 了 一 种 带 有 解释 器 的 编程 语言 。 像 1.1 节 中 提 到 的 那样 ， 解 
释 器 实际 上 执行 源 程 序 中 的 操作 ， 而 不 是 生成 目标 代码 。 

为 了 自 举 ， 一 个 编译 器 可 以 用 三 种 语言 来 刻画 :编译 器 要 编译 的 源 语言 5， 编译 器 要 产生 
的 目标 语言 T， 编 写 编译 器 所 用 的 实现 语言 I。 我 们 用 下 面 的 T 型 图 来 表示 这 三 种 语言 。T 型 图 
这 个 名 称 源 于 图 的 形状 ( Bratman[1961] )。 


aon 


在 文章 中 ， 我 们 将 上 面 的 T 型 图 简写 为 ST。S、1 和 了 可 能 是 三 种 完全 不 同 的 语言 。 例 如 ， 
在 某 种 机 器 上 运行 的 编译 器 可 能 为 另外 一 种 机 器 生成 目标 代码 ， 这 样 的 编译 器 通常 被 称 为 交叉 
编译 器 。 

假定 现在 要 利用 已 实现 的 语言 S 为 新 语言 L 编写 一 个 交叉 编译 器 ， 并 生成 机 器 N 的 目标 
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代码 ， 即 创建 LSN。 如 果 语 言 S 的 编译 器 在 机 器 M 上 运行 并 生成 M 的 代码 ， 我 们 用 SMM 来 
刻画 。 如 果 LSN 通过 SMM 来 运行 ， 我 们 可 以 


获得 编译 器 LMN， 即 一 个 运行 于 机 器 M 上 的 oo alo 
将 语言 L 编译 成 语言 N 的 编译 器 。 将 这 些 编译 
器 的 T 型 图 放 在 -起 得 到 下 面 的 图 11-1， 该 图 很 
好 地 说 明了 上 述 过 程 。 Too 

像 图 11-1 那 样 将 工 型 图 组 合 在 一 起 的 时 候 ， 图 1 1 编译 “个 编译 器 
编译 器 LSN 的 实现 语言 S 必须 和 已 有 编译 器 SMM 的 源 语言 相同 ， 而 SMM 的 目标 语言 M 必 
须 和 翻译 后 的 LMN 的 实现 语言 相同 。 图 11.1 可 以 看 成 如 下 的 一 个 等 式 : 


LSN+SMM=LMN 


例 11.1 EQN 编译 器 (参见 12.1 节 ) 最 初 的 版 本 以 C 为 实现 语言 并 为 文本 格式 化 工具 
TROFF 生 成 代码 。 如 下 图 所 示 ， 在 运行 于 PDP-11 上 的 C 编译 器 C1111 的 基础 上 ， 我 们 使 用 
EQNCTROFF 就 可 以 得 到 运行 于 PDP-11 上 的 EQN 的 交叉 编译 器 。 
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自 举 的 一 种 形式 是 为 不 断 扩充 的 语言 子 集 构建 编译 器 。 假 设 新 语言 L 要 在 机 器 M 上 实现 。 
我 们 可 以 先 编写 一 个 小 编译 器 将 世 的 子 集 S 编译 成 M 的 目标 代码 ， 即 建立 编译 器 SMM。 然 后 我 
们 用 子 集 $ 为 车 编号 编译 器 LesM。 在 SMM 的 基础 上 运行 LSM， 我 们 就 得 到 语言 的 一 个 实现 ， 
Bl LMM。Neliac 是 最 早 通过 自身 来 实现 的 语言 之 一 (Huskey, Halstead, and McArthur[1960] )。 

Wirth[1971] 谈 到 Pascal 最 早 是 用 Pascal 自身 编写 的 编译 器 来 实现 的 。 在 此 基础 上 ， 再 
“手工 ”将 该 编译 器 翻译 成 可 用 的 未 经 优化 的 低级 语言 。 这 个 编译 器 是 为 Pascal 语言 的 一 个 子 
集 (多 于 60% ) 编写 的 ; 经 过 几 次 自 举 后 就 得 到 整个 Pascal 的 编译 器 。Lecarme and Peyrolle- 
Thomas[1978] 中 总 结 了 自 举 Pascal 编译 器 所 用 到 的 方法 。 

为 了 完全 认 清 自 举 的 优点 ， 编 译 器 必须 以 要 被 编译 的 语言 来 编写 。 假 设 我 们 用 语言 L 编写 
了 一 个 L 的 编译 器 LLN, FERIA N 的 目标 代码 。 开 发 工作 在 机 器 M 上 进行 ，M 上 运行 
着 编译 器 LMM， 该 编译 器 为 L 生成 机 器 M 的 目标 代码 。 首 先 用 LMM 来 编译 LEN, FRED 
可 获得 一 个 在 M 上 运行 却 能 为 N 生成 代码 的 交叉 编译 器 : 


用 上 面 生成 的 交叉 编译 器 再 一 次 编译 编译 器 LLN: 


SLS 
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我 们 便 获 得 了 一 个 运行 于 N 上 并 为 N 生成 目标 代码 
的 编译 器 LNN。 这 种 两 步 编译 的 过 程 有 许多 应 用 ， Se Ser 
因此 我 们 用 图 11-2 来 表述 它 。 A > ci 

例 11.2 ”本 例 是 受 Fortran 语言 的 H 编译 器 ( 见 v 
12.4 节 ) 开发 的 启发 而 提出 来 的 。“ 编 译 器 本 身 是 用 yest 
Fortran 语言 编写 的 ， 并 进行 了 三 次 自 举 。 第 一 次 是 Bia A 
将 其 运行 的 机 器 从 IBM 7094 转换 到 System/360 一 一 这 是 一 个 费劲 的 过 程 。 第 二 次 是 它 自身 的 
优化 ， 这 一 过 程 将 编译 器 的 大 小 从 约 550K 减少 到 约 400K 字 节 ”( Lowry and Medlock[1969] )。 

利用 自 举 技术 ， 优 化 编译 器 能 对 自身 进行 优化 。 假 定 所 有 的 开发 都 是 在 机 器 M 上 进行 的 ， 
而 且 我 们 有 一 个 用 S 编写 的 语言 S 的 优质 优化 编译 器 SsM， 现 在 我 们 要 构建 一 个 用 M 编写 的 
S 的 优质 优化 编译 器 SMM。 

我 们 可 以 在 M 上 为 $ 创建 一 个 暂且 应 急 的 编译 器 SM+ M+ ， 它 不 仅 生成 劣质 的 代码 m 
且 需 要 花 很 长 的 时 间 来 完成 该 过 程 。( M4 表示 M 的 一 个 粗 劣 的 实现 。SMi+ Mt 表示 编译 器 的 
一 个 粗 劣 的 实现 ， 它 生成 精 糕 的 代码 。) 然而 经 过 两 步 ， 利 用 这 个 平凡 的 编译 器 SM+M+ 我 们 
却 可 以 得 到 优秀 的 S 编译 器 : 


首先 ， 优 化 编译 器 SoM 被 应 急 编译 器 翻译 成 SM + M， 这 个 新 产生 的 编译 器 是 优化 编译 器 
的 一 个 粗 劣 的 实现 , 但 是 它 生成 的 代码 是 优质 的 。 然 后 用 SM + M 来 编译 SoM 就 得 到 优质 的 
优化 编译 器 SMM。 口 


例 11.3 Ammann[1981] 描 述 了 怎样 利用 类 似 于 例 11.2 的 过 程 得 到 Pascal 的 一 个 清晰 实现 。 
对 Pascal 的 修正 导致 了 1972 年 编写 的 运行 于 CDC 6000 系列 机 上 的 全 新 编译 器 的 产生 ,下 图 中 ， 
O 代表 “ 老 ”Pascal, P 代表 修正 后 的 Pascal, 





修正 版 Pascal 的 编译 器 是 用 老 版 本 的 Pascal 编写 的 ， 然 后 被 翻译 成 P6oog46000。 与 例 
11.2 中 一 样 ， 符 号 了 表示 粗 劣 的 语言 或 编译 器 。 老 编译 器 不 能 产生 高 效 代码 。“ 所 以 ，[P6000+ 6000] 
编译 器 的 速度 虽然 还 可 以 ， 但 其 存储 要 求 非 常 高 (Ammann[1981] )。” 修 正版 的 Pascal 非常 小 ， 
这 使 得 无 须 费 很 大 的 功夫 就 可 以 手工 将 编译 器 Po6000 翻译 成 PP 6000， 然 后 通过 并 不 高 效 的 
编译 器 P6000+ 6000 就 可 以 得 到 Pascal 的 一 个 清晰 的 实现 。 口 


11.3 编译 器 开发 环境 
事实 上 ， 编 译 器 只 是 一 个 程序 。 该 程序 的 开发 环境 可 能 影响 实现 编译 器 的 速度 和 可 靠 性 。 
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编译 器 的 开发 语言 同样 重要 。 尽 管 很 多 编译 器 已 经 用 Fortran 这 样 的 语言 实现 ， 但 是 使 用 C 这 
样 的 面向 系统 的 语言 是 更 明智 的 选择 。 

如 果 源 语言 本 身 是 一 个 新 的 面向 系统 的 语言 ， 那 么 最 好 用 其 本 身 来 编写 编译 器 。 使 用 前 几 
节 讨 论 的 自 举 技术 将 有 助 于 编译 器 的 调试 。 

编程 环境 中 的 软件 构建 工具 为 创建 高 性 能 的 编译 器 提供 了 极 大 的 方便 。 在 编写 编译 器 时 ， 
习惯 上 将 整个 程序 划分 为 一 些 模块 ， 对 每 个 模块 可 以 用 不 同 的 方式 进行 处 理 。 对 于 编译 器 的 
编写 者 来 说 ， 一 个 管理 各 模块 的 程序 是 不 可 缺少 的 辅助 工具 。UNIX 系统 中 有 一 条 称 为 make 
( Feldman[1979a] ) 的 命令 ， 它 管理 和 维护 计算 机 程序 的 各 个 组 成 模块 。make 跟踪 程序 模块 间 
的 关系 ， 并 在 程序 被 修改 后 发 出 指令 ， 重 新 编译 被 修改 的 模块 ， 通 过 这 种 方式 可 以 保持 程序 
的 一 致 性 。 


例 11.4 命令 make 从 文件 makefile 中 读 取 要 完成 的 任务 的 说 明 。 在 2.9 节 中 ， 我 们 构建 
了 一 个 翻译 器 ， 该 翻译 器 是 用 C 编译 器 将 7 个 均 依 赖 于 全 局 头 文件 global .h 的 源 程序 编译 后 
得 到 的 。 为 了 说 明 make 是 怎样 将 编译 任务 放 在 一 起 完成 的 ， 我 们 可 以 看 一 下 下 面 的 例子 。 假 
定 我 们 将 最 终 的 编译 器 称 为 trans， 文 件 makefile 中 的 说 明 可 能 如 下 : 
OBJS = lexer.o parser.o emitter.o symbol.o\ 
init.o error.o main.o | 
trans: $(OBJS) 
cc $(OBJS) -o trans 


lexer.o parser.o emitter.o symbol.o\ 
init.o error.o main.o: global.h 


第 一 行 中 的 等 号 使 得 左 部 的 OBJS 代表 右 部 的 7 个 目标 文件 。( 长 行 可 以 分 成 短 行 ， 只 要 在 
要 分 行 的 地 方 加 \ 即 可 。) 第 二 行 的 冒号 表明 trans 依赖 于 OBJS 所 代表 的 所 有 文件 。 这 样 一 
个 有 依赖 性 的 行 的 后 面 可 以 紧 跟 一 个 命令 来 创建 冒号 左边 的 文件 。 第 三 行 则 告诉 我 们 旧 标 文件 
trans 是 通过 将 目标 文件 lexer.o, parser.o, =, main.o 连接 在 一 起 而 创建 的 。 但 是 ， 
make 知道 它 必须 先 创建 这 些 目标 文件 ， 而 且 它 能 像 下 面 这 样 自 动 地 完成 这 些 工 作 : 它 先 找到 
相应 的 源 文件 lexer .c，parser.c，…，main.c， 然 后 用 C 编译 器 编译 它们 得 到 相应 的 
目标 文件 。 最 后 一 行 说 的 是 所 有 的 7 个 目标 文件 都 依赖 于 全 局 头 文件 global .h。 

要 建立 翻译 器 ， 只 要 键 人 make 命令 即 可 ， 它 将 执行 如 下 命令 : 

CC -c lexer.c 

cc -c parser.c 

cc -c emitter.c 

cc -c symbol.c 

ce -c init.c 


cc lexer.o parser.o emitter.o symbol.o\ 
init.o error.o main.o -o trans 


完成 之 后 ， 如 果 上 一 遍 编 译 之 后 依赖 的 源 文件 被 改动 了 ， 编 译 过 程 将 会 重新 执行 一 次 。 
Kernighan and Pike[1984] 中 包括 一 些 利 用 make 帮助 构建 编译 器 的 例子 。 . 口 


描述 器 〈profiler ) 是 另 一 个 有 用 的 编译 器 编写 工具 。 一 旦 编译 器 完成 后 ， 可 以 用 描述 器 来 
确定 编译 器 在 编译 源 文件 时 主要 把 时 间 用 在 哪些 文件 上 ， 从 而 能 确定 编译 器 的 热点 部 分 。 对 热 
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点 部 分 进行 修改 可 以 使 编译 器 的 速度 提高 2 到 3 售 。 
除了 软件 开发 工具 以 外 ， 有 很 多 专门 针对 编译 器 开发 过 程 的 工具 也 已 经 被 开发 出 来 了 。 在 
3.5 节 中 ， 我 们 曾 描述 过 生成 器 Lex， 它 能 根据 词法 分 析 器 的 正规 表达 式 的 说 明 自 动 地 生成 词法 
分 析 器 ; 在 4.9 节 ， 我 们 描述 了 生成 器 Yacc， 它 能 根据 语言 的 语法 描述 自动 地 生成 LR 语法 分 析 
器 。 上 面 描述 的 make 命令 在 需要 的 时 候 将 自动 调用 Lex 和 Yacc。 除 了 词法 分 析 器 和 语法 分 析 
器 的 生成 器 外 ， 已 经 开发 出 来 的 构建 编译 器 部 件 的 辅助 工具 还 有 属性 文法 生成 器 和 代码 生成 器 
的 生成 器 。 许 多 这 样 的 编译 器 构建 工具 都 有 一 个 有 用 的 性 质 ， 即 能 够 捕获 编译 器 规范 中 的 bug。 
730 在 编译 器 构建 问题 上 ， 有 一 些 关 于 程序 生成 器 的 效率 和 方便 程度 的 争论 ( Waite and 
Carter[1985] )。 人 们 已 经 认同 的 事实 是 ， 好 的 程序 生成 器 对 生成 可 靠 的 编译 器 组 件 有 很 大 的 帮 
助 。 与 用 手工 实现 语法 分 析 器 相 比 ， 利 用 语言 的 语法 描述 和 一 个 语法 分 析 器 生成 器 来 生成 一 个 
正确 的 语法 分 析 器 要 容易 得 多 。 然 而 ， 一 个 重要 的 问题 是 这 些 生成 器 之 间 以 及 它们 和 程序 之 间 
的 接口 是 怎样 的 。 在 设计 生成 器 时 最 普遍 的 错误 是 将 它 假 定 为 设计 的 核心 。 一 种 较 好 的 设计 可 
以 让 生成 器 产生 具有 简明 接口 的 子 程序 ， 其 他 程序 可 以 通过 这 些 接口 调用 相应 的 子 程序 
( Johnson and Lesk[1978] )。 


11.4 测试 与 维护 


编译 器 必须 生成 正确 的 代码 。 最 理想 的 情况 是 ， 我 们 有 一 台 计 算 机 ， 它 能 机 械 地 验证 编译 
器 是 否 完全 按照 其 规范 实现 。 有 几 篇 论文 确实 讨论 了 各 种 编译 算法 的 正确 性 ， 但 不 幸 的 是 ， 
编译 器 基本 上 并 不 是 按 规范 来 实现 的 ， 因 此 也 就 无 法 检查 编译 器 的 任意 一 个 实现 是 否 违反 了 
其 正式 规范 。 由 于 编译 器 通常 都 是 相当 复杂 的 程序 ， 因 此 还 存在 验证 编译 器 规范 本 身 的 正确 
性 的 问题 。 

实际 上 ， 我们 必须 借助 一 些 系统 方法 来 测试 编译 器 ， 以 此 增强 我 们 对 编译 器 使 用 的 信心 ， 
相信 它们 在 该 领域 中 能 令 人 满意 地 工作 。“ 回 归 ” 测 试 是 一 种 比较 成 功 的 方法 ， 很 多 编译 器 编 
写 者 都 采用 了 该 方法 。 在 这 种 方法 中 ， 我 们 维护 了 一 套 测试 程序 ， 只 要 编译 器 进行 了 改动 ， 这 
些 测试 程序 就 分 别 用 新 、 老 版 本 的 编译 器 编译 。 两 个 编译 器 编译 所 得 的 目标 程序 的 任何 差别 都 
会 向 编译 器 编写 者 报告 。 还 可 以 用 UNIX 系统 命令 make 来 将 该 测试 自动 化 。 

选择 将 什么 程序 放 入 测试 包 中 是 一 个 很 难 的 问题 。 我 们 的 目标 是 测试 程序 能 使 编译 器 中 的 
每 条 语句 至 少 被 使 用 一 次 。 找 这 样 一 个 测试 包 需 要 花 极 大 的 心智 。 人 们 已 经 建立 了 Fortran, 
TEX、C 等 语言 的 穷 举 性 测试 包 。 许 多 编译 器 编写 者 向 回归 测试 包 中 增加 在 老 版 本 编译 器 中 发 
现 过 bug 的 程序 。 令 人 失望 的 是 由 于 对 编译 器 做 了 新 的 改正 ， 以 前 出 现 过 的 bug 还 会 重新 出 现 。 

性 能 测试 也 很 重要 。 有 些 编译 器 编写 者 通过 在 回归 测试 中 做 一 些 计 时 研究 ， 发 现 新 版 编译 
器 生成 的 代码 的 质量 与 老 版 的 基本 一 样 。 

编译 器 维护 是 另 一 个 重要 问题 ， 特 别 是 如 果 编 译 器 要 在 不 同 的 环境 中 运行 ， 或 者 参加 编译 
器 项 目的 工作 人 员 随 时 有 离开 或 加 入 的 可 能 时 ， 这 个 问题 更 值得 重视 。 编 译 器 维护 的 一 个 关 
键 因素 是 具有 和 良好 的 编程 风格 和 完整 的 文档 。 作 者 听 说 过 一 个 编译 器 只 用 了 7 条 注释 ， 其 中 一 
条 是 “该 代码 很 糟糕 "” 。 不 用 说 ， 除 了 最 初 的 编写 者 以 外 ， 对 任何 人 来 说 这 样 的 程序 都 是 很 难 

731| 维护 的 。 

Knuthf1984b] 开发 了 一 个 称 为 WEB 的 系统 ， 该 系统 用 于 解决 为 大 型 Pasca 程序 编写 文档 

的 问题 。WEB 使 得 可 读 性 编程 变 得 容易 了 ; 在 代码 写 出 来 的 同时 文档 也 被 开发 出 来 了 ， 不 需 
要 以 后 添加 。WEB 中 的 许多 思想 同样 可 以 很 好 地 用 于 其 他 语言 。 
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本 章 将 讨论 一 些 现 有 编译 器 的 结构 ， 这 些 编译 器 对 应 的 语言 有 文本 格式 化 语言 、Pascal、 
C, Fortran, Bliss 和 Modula 2。 在 此 列 出 这 些 编译 器 并 不 是 提倡 采用 它们 的 设计 方式 而 否定 
其 他 设计 方式 ， 我 们 只 是 想 给 大 家 展示 编译 器 实现 中 可 能 存在 的 不 同 之 处 。 

选择 Pascal 编译 器 是 因为 它们 影响 了 语言 本 身 的 设计 ， 选择 C 编译 器 是 因为 C 是 UNIX A 
统 上 最 主要 的 编程 语言 , 选择 Fortran H 编译 器 是 因为 它 在 优化 技术 的 发 展 方面 有 着 巨大 的 影响 ， 
BLISS/11 则 被 用 来 展示 以 优化 空间 为 目标 的 编译 器 的 设计 ， 选 择 DEC Modula 2 编译 器 则 是 因 
为 它 采 用 相对 简单 的 技术 却 能 产生 优质 的 代码 ， 并 且 它 是 仅 由 一 个 人 在 几 个 月 的 时 间 内 完成 的 。 


12.1 数学 排版 预 处 理 器 EQN 


许多 计算 机 程序 可 能 的 输入 所 构成 的 集合 可 以 视 为 一 个 小 语言 。 该 集合 的 结构 可 以 用 一 个 
文法 来 描述 ， 而 且 语 法 制导 翻译 可 以 用 来 精确 地 指定 该 程序 的 行为 。 这 样 的 话 ， 我 们 就 可 以 利 
用 编译 器 技术 来 实现 该 程序 。 

UNIX 编程 环境 下 的 第 一 个 小 语言 编译 器 是 由 Kernighan 和 Cherry[1975] 编写 的 EQN. IE 
如 1.2 节 所 简要 描述 的 那样 ，EQN 以 “BE sub 1” 这 样 的 形式 作为 输入 并 产生 命令 ， 以 此 作为 
文本 格式 化 工具 TROFF 的 输入 ， 最 终 产 生 “E,” 这 种 形式 的 输出 。 

EQN 的 实现 如 图 12-1 所 示 。 宏 预 处 理 ( 见 
1.4 节 ) 和 词法 分 析 器 是 一 起 实现 的 。 词 法 分 析 
后 的 记号 流 会 被 语法 分 析 翻 译 成 文本 格式 化 命 p 
令 。 翻 译 回 是 使 用 4.9 节 描述 的 语法 分 析 器 生成 ABU BRR 
器 Yacc 构建 的 。 记号 流 

笔者 注意 到 ， 将 EON 的 输入 看 成 一 个 语言 
并 使 用 编译 器 技术 来 构造 翻译 器 的 方法 有 几 个 
好 处 。 

1. 易于 实现 。 “构建 一 个 能 对 大 量 例子 进行 图 12.1 EQN 的 实现 
试验 的 工作 系统 在 过 去 也 许 要 一 个 人 -月 。” 

2. 语言 的 演化 。 语 法 制导 定义 促进 了 输入 语言 的 改变 。 这 些 年 为 适应 用 户 需求 EQN 在 不 
断 地 完善 发 展 。 

作者 最 后 得 出 的 结论 是 “定义 一 个 语言 ， 并 使 用 编译 器 /编译 器 来 为 其 构建 编译 器 看 起 来 
似乎 是 惟一 明智 的 办 法 。” 

12.2 Pascal 编译 器 


正如 Wirth[1971] 中 所 谈 到 的 那样 ，Pascal 的 设计 与 其 第 一 个 编译 器 的 开发 是 “相互 依赖 
的 "。 所 以 ， 查 看 一 下 由 Wirth 和 他 的 合作 者 们 为 该 语言 编写 的 编译 器 的 结构 就 具有 指导 意义 。 
第 一 个 (Wirth[1971] ) 和 第 二 个 (Ammann[1981,1977] ) Pascal 编译 器 为 CDC 6000 系列 机 生 
成 绝对 的 机 器 代码 。 对 第 二 个 编译 器 做 的 可 移植 性 试验 导致 了 为 抽象 栈 式 机 器 生成 代码 的 
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Pascal-P 编译 器 ( Nori et al. [1981] ) 的 出 现 ， 
它 生 成 的 代码 称 为 P 代码 。 

上 述 的 每 一 个 编译 器 都 是 围绕 递归 下 降 语 
法 分 析 器 组 织 起 来 的 单 遍 编译 器 ， 它 类 似 于 第 2 
章 中 的 “小 型 ”前 端 。Wirth[1971] 注 意 到 ,“ 实 
践 证 明 ， 根 据 语 法 分 析 方法 的 限制 来 定制 诸 言 
相对 比较 容易 。”Pascal-P 编译 器 的 组 织 如 图 
12-2 所 示 。 

Pascal-P 编译 器 所 使 用 的 抽象 栈 式 机 器 中 


#12 全 


源 代码 


词法 分 析 器 ， 
在 源 代 码 的 拷贝 上 标记 错误 





记号 流 


预测 翻译 器 ， 类 型 检查 器 


P 代 码 
图 12-2 Pascal-P 编 译 器 


的 基本 操作 反映 了 Pascal 的 需求 。 机 器 的 存储 区 域 分 为 四 部 分 : 


1. 过 程 代 码 。 

2. 常数 。 

3. 活动 记录 栈 。 

4. 使 用 mew 操作 符 进行 分 配 的 数据 的 堆 。。 


由 于 Pascal 的 过 程 可 以 肉 套 ， 过 程 的 活动 记录 包含 访问 链 和 控制 链 。 过 程 调用 被 翻译 成 抽 
象 机 器 的 “标记 栈 ” 指 令 ， 其 参数 为 访问 链 和 控制 链 。 过 程 代 码 通过 使 用 到 活动 记录 结尾 处 的 
偏 移 来 实现 对 局 部 名 字 存 储 位 置 的 引用 。 对 非 局 部 量 存储 位 置 的 引用 则 通过 一 个 序 对 ， 该 序 对 
由 要 被 遍历 的 访问 链 的 数量 和 一 个 偏 移 组 成 ， 如 7.4 节 所 述 。 第 一 个 编译 器 使 用 display 表 来 实 


现 对 非 局 部 量 的 高 效 访问 。 


Ammann[1981] 根 据 编写 第 二 个 编译 器 的 经 验 得 出 下 面 的 结论 。 一 方面 ， 单 遍 编 译 器 易于 
实现 并 产生 适度 的 输入 /输出 活动 ( 过程 体 的 代码 在 内 存 中 编译 并 作为 一 个 单位 写 到 二 级 存储 
器 上 )。 另 一 方面 ， 单 遍 组 织 结构 “对 生成 的 代码 质量 的 限制 太 大 且 有 相对 较 高 的 存储 要 求 。 


12.3 C 编 译 器 


C 是 D. M. Ritchie 设计 的 一 种 通用 编程 语 
言 ， 而 且 在 UNIX 操 作 系 统 (Ritchie and 
Thompson [1974] ) 上 已 经 成 为 一 种 主要 的 编程 
语言 。UNIX 本 身 是 用 C 实现 的 并 被 移植 到 从 
微 处 理 器 到 大 型 机 的 许多 机 器 上 ， 移 植 过 程 只 
要 求 先 移植 一 个 C 编译 器 。 本 节 我 们 将 简要 描 
述 一 下 Ritchie [1979] 为 PDP-11 编写 的 编译 器 
的 总 体 结构 和 Johnsonf1979] 编写 的 可 移植 的 C 
编译 器 的 PCC 系列 。PCC 代码 的 四 分 之 三 是 
独立 于 目标 机 器 的 。 所 有 的 这 些 编译 器 本 质 上 
都 是 两 遍 的 ; PDP-11 编译 器 有 一 个 可 供 选 择 的 
第 三 遍 ， 这 一 遍 将 对 汇编 语言 输出 做 一 些 优化 ， 
如 图 12-3 所 示 。 这 一 完 孔 优化 阶段 将 消除 元 余 


源 代码 


词法 分 析 和 请 法 分 析 
中 间 代 码 生 成 


RAN RRI BX 
其 他 成 分 的 汇编 代码 


汇编 语言 
图 12-3 C 编 译 器 的 结构 


O 用 它 所 编译 的 子 集 编 写 的 编译 器 使 用 像 栈 那样 的 堆 可 以 很 容易 地 实现 自 举 ， 所 以 初始 时 可 以 使 用 一 个 简单 


的 堆 管 理 器 。 
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的 或 不 可 达 的 语句 。 

各 种 编译 器 的 第 一 遍 都 完成 词法 分 析 、 语 法 分 析 和 中 间 代 码 生 成 。PDP-11 编译 器 采用 递 
归 下 降 法 分 析 除 表达 式 以 外 的 一 切 语 法 成 分 ， 对 表达 式 的 分 析 采 用 的 是 算 符 优 先 法 。 中 间 代 码 
由 表达 式 的 后 级 表示 和 控制 流 语句 的 汇编 代码 组 成 。PCC 使 用 Yacc 生成 的 LALR(1) 语法 分 析 
器 ， 它 的 中 间 代 码 由 表达 式 的 前 缀 表示 和 其 他 结构 的 汇编 代码 组 成 。 在 每 种 情况 下 ， 局 部 名 字 
的 存储 分 配 都 是 在 第 一 遍 中 完成 的 ， 因 此 使 用 活动 记录 的 偏 移 就 可 以 引用 这 些 局 部 名 字 。 

在 后 端 ， 表 达 式 用 语法 树 表 示 。PDP-11 编译 器 通过 对 树 的 遍历 来 生成 代码 ， 忆 历 算法 使 
用 类 似 9.10 节 中 描述 的 标记 算法 。 对 该 算法 已 经 做 了 一 些 修改 以 确保 寄存 器 对 对 需要 它们 的 操 
作 是 可 用 的 ， 并 且 可 以 利用 常量 操作 数 。 

Johnson{1978] 总 结 了 PCC 的 理论 的 影响 。PCC 以 及 其 后 续 版 本 的 编译 器 PCC2 都 通过 重 
写 树 来 生成 表达 式 的 代码 。PCC 的 代码 生成 器 每 次 检查 一 条 源 语言 语句 ， 重 复 地 找 出 只 用 可 
用 寄存 器 而 不 必 使 用 存储 空间 就 能 完成 计算 的 最 大 子 树 。 在 9.10 节 计算 出 的 标号 识别 出 要 计算 
的 子 表达 式 并 将 它们 存 到 临时 变量 中 。 计 算 并 存储 这 些 子 树 所 表示 的 值 的 代码 是 在 这 些 子 树 被 
选 定时 由 编译 器 生成 的 。PCC2 中 的 重 写 更 明显 ， 其 代码 生成 器 基于 9.11 节 的 动态 规划 算法 。 

Johnson and Ritchie[1981] 中 描述 了 目标 机 器 对 活动 记录 和 过 程 调用 /返回 序列 设计 的 影响 。 
标准 库 函 数 printf 可 以 有 可 变数 量 的 参数 ， 因 此 某 些 机 器 上 的 调用 序列 的 设计 取决 于 是 否 
需要 允许 变 长 参数 列表 。 


12.4 Fortran H 编译 器 


最 初 的 Fortran H 编译 器 是 Lowry 和 Medlock 
[1969] 编写 的 ， 它 是 一 个 使 用 广泛 、 功 能 颇 为 强大 的 — 
优化 编译 器 ， 该 编译 器 在 构建 过 程 中 就 已 经 使 用 了 本 
书 中 描述 的 方法 。 到 目前 为 止 已 经 进行 了 几 次 改进 其 操作 符 -操作 数 对 
性 能 的 尝试 ，“ 扩 展 ” 版 的 编译 器 已 经 在 IBM/370 上 
开发 成 功 ; “增强 ”版 的 编译 器 也 已 经 由 Scarborough 语法 分 析 ， 数 据 流 分 析 ， 
和 Kolsky[1980] 开发 成 功 。Fortran H 为 用 户 提供 了 不 地 址 到 名字 的 分 配 
做 优化 、 只 做 寄存 器 优化 和 做 完全 优化 等 选项 。 执 行 
完全 优化 的 编译 器 的 梗概 如 图 12-4 所 示 。 

REP MERA ee, KARAT aKa 
析 和 语法 分 析 ， 并 产生 四 元 式 。 接 下 来 将 代码 优化 和 


源 代码 





四 元 式 


代码 优化 ， 寄 存 器 优化 ， 分 支 优 化 





寄存 器 优化 一 并 完成 ， 最 后 一 遍 根据 四 元 式 和 寄存 器 带 有 寄存 器 指派 的 四 元 式 
指派 来 生成 目标 代码 。 
词法 分 析 阶 段 有 点 特殊 ， 因 为 它 的 输出 不 是 记号 
流 而 是 “操作 符 -操作 数 对 ” 流 ， 操 作 符 -操作 数 对 大 
臻 可 以 理解 为 一 个 以 非 操作 数 记号 为 前 导 的 操作 数 记 a namie 
` -4 Fortran H 编译 器 轮廓 
号 。 需 要 注意 的 是 ， 与 其 他 很 多 语言 一样 ，Fortran 里 


不 允许 连续 的 两 个 标识 符 或 者 常数 这 样 的 操作 数 记 号 ， 这 样 连续 的 两 个 记号 至 少 要 用 一 个 标点 
记号 将 其 分 开 。 
例如 ， 赋 值 语句 


A= B(I) +C 
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将 被 翻译 成 下 面 的 序 对 序列 : 


H 
| HH wP 


十 C 
词法 分 析 阶 段 需 要 将 引入 参数 列表 或 者 下 标的 左 括号 与 把 操作 数 分 组 的 左 括号 区 分 开 来 . 因此， 
符号 “(s” 表 示 该 左 括号 是 用 作 下 标 操作 符 的 。 右 括号 后 面 不 跟 任 何 操作 数 ， 而 且 Fortran H 
并 不 像 区 分 左 括号 那样 区 分 右 括号 的 这 两 种 作用 。 

对 COMMON 和 EQUIVALENCE 语句 的 处 理 是 同 词法 分 析 连 在 一 起 的 。 可 以 在 这 一 阶段 对 
COMMON 块 做 出 存储 规划 ， 还 可 以 对 子 程序 存储 块 进行 规划 ， 并 在 某 个 项 态 存 储 区 为 程序 中 提 
到 的 每 个 变量 确定 存储 位 置 。 

由 于 Fortran 没有 像 while 语句 这 样 的 结构 化 控制 语句 ， 因 此 除了 对 表达 式 的 语法 分 析 外 ， 
其 他 的 语法 分 析 都 非常 简单 ; 而 且 Fortran H 也 只 是 简单 地 运用 算 符 优先 分 析 器 来 分 析 表 达 式 。 
在 生成 四 元 式 时 只 是 执行 一 些 非 常 简单 的 局 部 优化 ， 例 如 ， 用 左 移 操 作 代替 乘 以 2 的 寡 运 算 。 
12.4.1 Fortran H 中 的 代码 优化 

在 Fortran H 中 ， 每 个 子 程序 均 被 划分 为 基本 块 。 正 如 10.4 节 所 述 ， 通 过 在 流 图 中 找 出 那 
些 头 支配 尾 的 边 即 可 发 现 循环 结构 。 编 译 器 执行 以 下 优化 : 

1. 公共 子 表达 式 删除 。 编 译 器 会 设法 找 出 局 部 公共 子 表达 式 ， 以 及 某 个 块 B MR B 所 支 
配 的 一 个 或 者 多 个 块 的 公共 子 表 达 式 。 对 其 他 的 公共 子 表达 式 则 不 进行 检测 。 此 外 ， 公 共 子 表 
达 式 的 检测 是 一 次 一 个 表达 式 ， 而 不 是 使 用 10.6 节 中 描述 的 位 向 量 法 。 有 趣 的 是 ， 在 开发 该 编 
译 器 的 “增强 ”版 的 过 程 中 ， 作 者 发 现 用 位 向 量 法 可 以 大 幅 提高 编译 器 的 速度 。 

2. 代码 外 提 。 如 10.7 节 所 述 ， 将 循环 不 变 语 句 从 循环 中 移出 。 

3. 复制 传播 。 这 也 是 按 一 次 一 条 复制 语句 的 方式 来 完成 的 。 

4. 归纳 变量 删除 。 这 一 优化 过 程 只 是 针对 在 循环 中 只 被 赋值 一 次 的 变量 。 这 里 消除 归纳 变 
量 使 用 的 方法 不 是 用 10.7 节 中 描述 的 “ 族 ” 法 ,而 是 通过 多 遍 扫 描 来 检测 属于 其 他 归纳 变量 族 
的 归纳 变量 。 

尽管 数据 流 分 析 是 按 一 次 一 个 的 方式 进行 的 ， 但 是 我 们 称 为 in 和 out 的 相应 的 值 是 以 位 向 
量 的 方式 来 存储 的 。 然 而 ， 在 最 初 的 编译 器 中 这 种 向 量 的 长 度 被 限制 为 127 位 ， 因 此 大 程序 中 
的 优化 仅 涉及 最 常 引用 的 变量 。 增 强 版 的 编译 器 没有 消除 这 一 限制 而 是 提高 了 限制 值 。 

12.4.2 代数 优化 

由 于 Fortran 常用 于 数值 计算 ， 因 此 代数 优化 是 很 危险 的 ， 因 为 在 计算 机 运算 中 ， 表 达 式 
的 变换 可 能 引起 溢出 或 者 精度 的 丢失 ， 而 且 如 果 我 们 将 代数 化 简 看 得 过 于 理想 的 话 ， 我 们 将 忽 
视 这 些 后 果 。 但 是 ， 与 整数 有 关 的 代数 变换 一 般 来 说 还 是 安全 的 ， 而 且 增 强 版 的 编译 器 只 在 存 
在 数组 引用 的 情况 下 才 执 行 这 种 优化 。 

一 般 地 , RAI, J, K) 这 样 的 数组 引用 会 涉及 到 偏 移 量 的 计算 ,该 偏 移 量 用 形 如 
aI+bJ+cK+d 的 表达 式 来 计算 ; 式 中 常数 的 精确 值 依赖 于 a 的 位 置 和 数组 的 维 数 。 如 果 工 和 和 区 
也 是 常数 ， 不 管 是 数值 常数 还 是 循环 不 变 变量 ， 则 编译 器 利用 交换 律 和 结合 律 可 以 得 到 表达 式 
bJ+e， 其 中 e = aI+cK+d。 

12.4.3 寄存 器 优化 
Fortran H 将 寄存 器 分 为 三 类 。 这 些 寄存 器 集 分 别 用 于 局 部 寄存 器 优化 、 全 局 寄存 器 优化 
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和 “分 支 优化 " 。 编 译 器 可 以 对 每 一 类 寄存 器 中 寄存 器 的 确切 数目 适当 地 进行 调整 。 

全 局 寄存 器 逐个 循环 地 被 分 配给 该 循环 中 引用 最 频繁 的 变量 。 如 果 一 个 变量 在 某 个 循环 L 
中 适合 放 到 寄存 器 中 ， 但 在 包含 L 的 直接 外 层 循环 中 却 不 适合 为 其 分 配 寄存 器 ， 则 该 变量 在 忆 
的 前 置 首 节点 会 被 装 入 寄存 器 ， 而 在 工 的 出 口 则 会 被 保存 到 内 存 中 。 

局 部 寄存 器 在 基本 块 中 被 用 于 保存 某 个 语句 的 结果 ， 直 到 它 被 用 于 新 的 语句 。 仅 当 没 有 足 
够 的 局 部 寄存 器 时 ， 临 时 变量 才 会 被 保存 到 主 存 中 。 如 果 某 操作 数 后 来 变 成 了 无 用 操作 数 ， 编 
译 器 将 会 用 保存 该 操作 数 的 寄存 器 来 计算 新 的 值 。 增 强 版 的 Fortran H 编译 器 试图 找 出 全 局 寄 
存 器 可 以 和 其 他 寄存 器 交换 的 情况 ， 以 增加 在 寄存 器 ( 保存 了 其 操作 数 ) 中 执行 运算 的 次 数 。 

分 支 优化 是 在 IBM/370 指令 集中 使 用 的 一 种 技巧 ， 这 种 技术 为 了 保险 ， 规 定 跳 转 的 地 址 
只 限于 寄存 器 可 以 表达 的 数值 加 上 一 个 0 到 4095 的 常数 。 因 此 ，Fortran H 在 代码 空间 中 以 4096 
个 字 节 的 间隔 分 配 一 些 寄存 器 来 保存 地 址 ， 以 便 在 庞大 的 程序 中 实现 高 效 的 跳 转 。 


12.5 BLISS/11 编 译 器 


该 编译 器 在 PDP-11 上 实现 了 系统 程序 设计 语言 Bliss (Wulf et al. [1975] )。 在 某 种 意义 上 ， 
该 编译 器 是 一 个 优化 编译 器 ， 但 是 由 于 该 编译 器 只 是 进行 存储 优化 以 减少 存储 空间 ， 而 不 是 时 
间 ， 因 此 在 今天 看 来 ， 它 已 经 没有 实际 应 用 价值 了 。 然 而 ， 该 编译 器 大 多 数 优化 操作 同样 也 节 
省 了 时 间 开 销 ， 而 且 该 编译 器 的 后 续 版 本 目前 仍 在 使 用 。 

有 几 个 原因 使 该 编译 器 值得 引起 我 们 的 注意 。 首 先 ， 其 优化 能 力 强 ,而且 它 实现 了 许多 几 
乎 在 别 的 地 方 找 不 到 的 变换 。 其 次 ， 它 率先 将 语法 制导 方法 用 于 优化 ， 正 如 10.5 节 所 讨论 的 那 
样 ， 也 就 是 说 ，Bliss 语言 被 设计 成 只 产生 可 约 流 图 ( 它 没有 goto 语句 )。 因 此 就 有 可 能 在 分 析 
树 而 不 是 在 流 图 上 直接 执行 数据 流 分 析 。 

该 编译 器 在 一 遍 中 完成 编译 ， 其 中 每 一 个 过 程 都 在 下 一 个 输入 之 前 被 完成 。 设 计 者 们 认为 
这 个 编译 器 由 5 部 分 组 成 ， 如 图 12-5 所 示 。 

LEXSYNFLO 执行 词法 分 析 和 语法 分 析 。 这 里 使 用 的 是 一 个 递归 下 降 语 法 分 析 器 。 由 于 
BLISS 不 允许 有 goto 语句 ， 因 此 所 有 BLISS 过 程 的 流 图 都 是 可 约 的 。 事 实 上 ， 当 我 们 进行 语 
法 分 析 时 ， 该 语言 的 语法 使 我 们 能 够 建立 流 图 ， 并 确定 其 中 的 循环 和 循环 人 口 。LEXSYNEFLO 
就 是 这 样 工作 的 ,而 且 利 用 可 约 流 图 的 结构 它 可 以 确定 公共 子 表达 式 以 及 ud- 链 和 du- 链 变量 。 
LEXSYNFLO 的 另 一 个 重要 工作 是 检测 相似 表达 式 组 。 这 些 表 达 式 组 有 可 能 被 单个 子 程序 代 
替 。 注 意 ， 这 种 替换 会 使 程序 运行 得 更 慢 ， 但 是 可 以 节约 空间 。 

DELAY 模块 检查 语法 树 ， 以 确定 诸如 不 变 代码 外 担 、 公 共 子 表达 式 删除 这 样 的 常见 优化 
中 ， 哪 一 种 在 实际 中 可 以 带 来 好 处 。 表 达 式 的 计算 顺序 也 被 同时 确定 ， 确 定 的 依据 是 9.10 节 中 
描述 的 标记 策略 , 该 策略 经 过 修改 , 可 以 用 于 标识 因 保存 公共 子 表达 式 的 值 而 不 可 用 的 寄存 器 。 
代数 法 则 被 用 来 确定 是 否 要 进行 运算 重组 。 正 如 8.4 节 所 述 ， 条 件 表达 式 的 计算 既 可 以 是 数值 
型 ， 也 可 以 由 控制 流 决定 ， 而 且 由 DELAY 确定 哪 种 模式 代价 更 低 。 

TNBIND 模块 考虑 哪个 临时 变量 名 应 与 寄存 器 绑 定 ， 寄 存 器 和 内 存单 元 都 要 进行 分 配 。 分 
配 所 使 用 的 策略 是 ， 首 先 将 语法 树 中 被 赋予 同一 寄存 器 的 节点 分 成 一 组 。 正 如 9.6 节 所 讨论 的 ， 
在 其 父 节点 所 使 用 的 同一 个 寄存 器 中 计算 一 个 节点 是 有 好 处 的 。 接 下 来 ， 将 临时 变量 放 人 寄存 
器 ， 如 果 该 变量 在 小 范围 内 被 多 次 使 用 ， 那么 这 种 做 法 是 有 好 处 的 。 根 据 给 最 有 利 的 节点 安排 
寄存 器 的 顺序 ， 寄 存 器 会 不 断 地 被 指派 出 去 ， 直 到 被 指派 完毕 。CODE 模块 将 该 树 ， 包 括 其 顺 
序 和 寄存 器 分 配 信息 ， 转 换 成 可 重 定位 的 机 器 代码 。 
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源 代码 


词法 分 析 和 语法 分 析 ， 流 分 析 ， 


LEXSYNFLOW 
收集 潜在 优化 信息 





语法 树 


估计 计算 顺序 ， 选 择优 化 方式 DELAY 





语法 树 加 上 排序 


把 在 同一 个 寄存 器 中 计算 的 节点 分 TNBIND 


组 ， 把 临时 变量 装 人 寄存 器 





语法 树 、 排 序 和 寄存 器 指派 


代码 生成 . | CODE 


可 重 定位 机 器 代码 


SARE FINAL 


j 


可 重 定位 机 器 代码 
图 12-5 BLISS/11 编 译 器 


接 下 来 ， 代 码 会 被 执行 帘 孔 优化 的 FINAL 模块 重复 检查 ， 直 到 不 能 对 其 进行 进一步 的 改 
进 为 止 。 这 些 改进 包括 消除 多 重 跳 转 〈 不 管 是 条 件 的 还 是 无 条 件 的 ) 以 及 条 件 式 求 反 ， 正 如 
9.9 节 所 讨论 的 那样 。 

元 余 代 码 或 者 不 可 达 指 令 也 会 被 消除 ( 这 可 能 是 由 其 他 FINAL 优化 完成 的 )。 我 们 试图 合 
并 一 个 分 支 的 两 条 路 径 上 的 相似 代码 序列 ， 这 个 过 程 就 像 常量 的 局 部 传播 。 我 们 还 试图 进行 许 
多 别 的 局 部 优化 ， 其 中 某 些 优化 的 硬件 相关 性 很 强 。 一 个 重要 的 局 部 优化 是 尽 可 能 用 PDP-11 
“分 支 ” 指 令 蔡 换 跳 转 指令 ，“ 分 支 ” 指 令 至 少 含 一 个 字 
但 被 限制 在 128 个 字 以 内 。 


12.6 ”Modula-2 优 化 编译 器 


该 编译 器 在 Powell[1984] 中 有 所 描述 ， 其 开发 目的 
为 使 用 代价 小 、 回 报 高 的 优化 来 产生 优质 代码 。 作 者 把 
他 的 策略 描述 为 寻找 “最 好 的 简易 ”优化 方法 。 这 种 想 
法 实现 起 来 很 困难 。 不 经 过 试验 和 测试 ， 很 难 预 先知 道 
哪个 是 “最 好 的 简易 ”优化 ， 而 且 Modula-2 编译 器 中 的 


计算 引用 计数 
和 指派 寄存 器 
一 些 做 法 可 能 不 适合 要 进行 最 大 程度 优化 的 编译 器 。 尽 
管 如 此 ， 这 种 策略 确实 达到 了 作者 产生 优秀 代码 的 预期 


目标 ， 而 使 用 的 只 是 一 个 一 个 人 在 几 个 月 的 时 间 内 编写 
出 的 编译 器 。 该 编译 器 前 端的 5 遍 如 图 12-6 所 示 。 图 12-6 Modula-2 编 译 器 的 饥 






解析 标识 符 引 用 
中 间 代 码 优化 
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该 编译 器 的 语法 分 析 器 是 用 Yacc 生成 的 ， 而 且 因为 Modula-2 的 变量 不 需要 在 使 用 前 进行 
声明 ,因此 它 在 两 遍 内 即 可 产生 语法 树 。 有 人 尝试 使 该 编译 器 与 已 有 的 工具 兼容 。 为 了 与 众多 
的 Pascal 编译 器 相 容 ， 其 中 间 代 码 是 P 代码 。 由 于 该 编译 器 的 过 程 调用 格式 与 运行 于 Berkeley 
UNIX 下 的 Pascal 编译 器 和 C 编译 器 的 过 程 调用 格式 一 致 ， 因 此 用 这 三 种 语言 编写 的 过 程 可 以 
很 容易 地 集成 在 一 起 。 

该 编译 器 不 进行 数据 流 分 析 。Modula-2 是 一 种 只 产生 可 约 流 图 的 语言 ， 这 与 Bliss 十 分 相 
似 ， 因 此 10.5 节 中 的 方法 同样 可 以 用 到 这 里 来 。 实 际 上 ，Modula 编译 器 在 语法 的 使 用 上 优 于 
Bliss 编译 器 。 其 中 循环 是 通过 语法 ( 即 编译 器 去 寻找 while 和 for 结构 ) 来 识别 的 。 根 据 表达 
式 中 没有 变量 是 在 循环 中 定义 的 事实 可 以 检测 不 变 表达 式 ， 这 些 不 变 表达 式 将 会 被 提 到 循环 头 
部 。 惟 一 被 检测 的 归纳 变量 是 for 循环 索引 族 中 的 变量 。 当 一 个 公共 子 表达 式 位 于 某 个 块 中 ， 
而 该 块 支配 所 有 其 他 块 时 ， 我 们 就 可 以 检测 出 全 局 公共 子 表 达 式 ， 但 这 种 分 析 只 能 是 一 次 一 个 
表达 式 ， 而 不 是 采用 位 向 量 的 方式 。 

寄存 器 分 配 策 略 设计 得 比较 简单 ， 它 只 是 完成 一 些 合理 的 工作 ， 而 不 是 进行 彻底 的 分 配 。 
实际 上 ， 它 只 将 下 列 变量 看 作 分 配给 寄存 器 的 候选 变量 : 

1. 表达 式 〈 指 那 些 获 得 第 一 优先 权 的 表达 式 ) 计算 期 间 所 用 到 的 临时 变量 。 

2. 公共 子 表达 式 的 值 。 

3. for 循环 的 索引 和 上 限 值 。 

4. 在 形 如 with E do 的 表达 式 中 的 的 地 址 。 

5. 当前 过 程 的 局 部 简单 变量 ( 字符 、 整 数 等 )。 

我 们 还 试图 估计 将 上 述 2~5 类 变量 保存 在 寄存 器 中 的 好 处 到 底 有 多 大 。 假 定 一 个 嵌 套 在 d 
层 循环 中 的 语句 被 执行 107 次 。 引 用 不 超过 两 次 的 变量 我 们 不 予 考虑 ， 其 他 变量 按照 估算 的 使 
用 次 数 来 制定 等 级 ， 如 果 为 表达 式 的 临时 变量 和 具有 高 等 级 的 变量 指派 完 寄 存 器 后 还 有 寄存 器 
可 用 ， 就 按照 等 级 也 为 它们 指派 寄存 器 。 


附录 一 个 程序 设计 项 目 
A1 引言 


本 附录 为 基于 本 书 的 编译 器 设计 课程 提供 了 一 个 用 于 编程 实验 的 编程 练习 。 该 练习 是 由 
Pascal 子 集 的 编译 器 基本 组 件 的 实现 组 成 的 。 这 个 子 集 是 最 小 的 ， 但 能 将 7.1 节 的 递归 排序 过 程 
这 样 的 程序 表达 清楚 。 作 为 现存 语言 的 一 个 子 集 它 具有 一 定 的 实用 性 。 用 该 子 集 编写 的 程序 的 
意义 是 由 Pascal 语言 的 语义 确定 的 〈Jensen and Wirth[1975] )。 如 果 你 手边 有 Pascal 编译 器 ， 可 
以 用 它 来 检验 作为 练习 编写 的 该 编译 器 的 工作 是 否 符合 要 求 。 子 集中 的 各 种 结构 在 许多 编程 语 
言 中 都 可 以 找到 ， 因 此 如 果 你 没有 Pascal 编译 器 ， 那 么 使 用 别 的 语言 也 可 以 检验 相应 的 练习 。 


A.2 程序 结构 


一 个 程序 由 一 系列 全 局 数据 声明 、 一 系列 过 程 和 函数 声明 以 及 一 个 复合 语句 即 “ 主 程序 ” 
组 成 。 全 局 数据 采用 静态 存储 分 配 ， 过 程 和 函数 的 局 部 数据 采用 栈 式 存 储 分 配 , 程序 允许 递归 ， 
参数 传递 方式 为 传 地 址 。 我 们 假定 read 和 write 这 两 个 过 程 由 编译 器 提供 。 

图 A-1 给 出 了 一 个 程序 的 例子 。 程 序 名 为 example, 而 input 和 output 分 别 是 read 
和 write 使 用 的 文件 名 。 


program example(input, output); 
‘var x, y: integer; 
function gcd(a, b: integer): integer; 
begin 
if b = 0 then gcd := a 
else gcd := gced(b, a mod b) 


end; 


begin 
read(x, y); 
write(gcd(x, y)) 
end. 





图 A-1 一 个 程序 例子 
A.3 Pascal 子 集 的 语法 


下 面 列 出 的 是 Pascal 子 集 的 LALR(1) 文 法 。 利 用 2.4 节 和 4.3 节 所 给 出 的 技术 ， 通 过 消除 左 
递归 ， 可 以 对 该 文法 进行 改造 以 适用 于 递归 下 降 语法 分 析 。 通 过 替换 掉 relop、addop 和 
mulop 并 消除 产生 式 ， 可 以 为 表达 式 构造 一 个 算 符 优先 语法 分 析 器 ; 

加 入 产生 式 


statement 一 if expression then statement 


BUARS else 二 义 性 ， 但 可 以 按照 4.3 节 的 方法 将 其 消除 ( 如 果 采 用 预测 语法 分 析 法 也 可 以 
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参照 例 4.19 )。 
简单 变量 与 不 带 参数 的 函数 调用 之 间 没 有 语法 区 别 。 二 者 都 用 下 面 的 产生 式 来 生成 : 


factor = id 


因此 ， 如 果 b 已 被 声明 为 一 个 函数 ， 则 赋值 语句 a := b 将 把 a 置 为 函数 b 返回 的 值 。 


program 一 
program id ( identifier_list ) ; 
declarations 
subprogram_declarations 
compound_statement 


N 


identifier list > 

id 

| identifier list , id 
declarations > 


declarations var identifier_list : type ; 
|e 


type > 
Standard_type 
|array { num . num ] of standard_type 


standard.type 一 
integer 
| real 
subprogram_declarations > 
subprogram_declarations subprogram_declaration ; 
|e 


subprogram_declaration — 
subprogram_head declarations compound_statement 


subprogram_head 一 
function id arguments : standard_type ; 
| procedure id arguments ; 


arguments > 
( parameter_iist ) 
Je 


parameter_list 一 
identifier_list : type 
| parameter_list ; identifier_list : type 
compound_statement 一 
begin 
optional_statements 
end 
optional_statements 一 
Statement_list 
Je 
statement_list > 
statement 
| statement_list ; statement 


Statement 一 
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variable assignop expression 

| procedure_statement 

| compound_statement 

| if expression then statement else statement 
| while expression do statement 


variable 一 
id 
| id [ expression ] 


procedure_statement 一 

id 

|id ( expression_list ) 
expression_list 一 

expression 

| expression_list , expression 


expression 一 
simple_expression 
| simple_expression relop simple_expression 


simple_expression 一 
term 
| sign term 
| simple_expression addop term 


term > 
factor 
| term mulop factor 


factor ~ 
id 
| id ( expression_tlist ) 
| num 
| ( expression ) 
| not factor 


sign 一 


+ | -~ 


A.4 词法 规则 


记号 的 表示 来 自 3.3 节 。 
1. 注释 用 { 和 } 括 起 来 。 注 释 体 中 不 能 含有 { 。 注 释 可 以 出 现在 任何 记号 的 后 面 。 
2. 记号 间 的 空格 可 有 可 无 ， 但 关键 字 前 后 必须 有 空格 、 换 行 、 程 序 的 开头 或 者 结尾 的 圆 点 。 
3. 标识 符 的 记号 id 与 以 字母 开头 的 字母 数字 串 相 匹配 : 
letter > [a-zA-Z] 


digit + [0-9] 
id -~ letter ( letter | digit )* 


实现 者 可 能 希望 对 标识 符 的 长 度 加 以 限制 。 
4. 记号 nem 与 无 符号 整数 相 匹配 (参见 例 3.5 ): 
digits + digit digit* 
optional_fraction > . digits | € 
optional_exponent > ( E( + | - | € ) digits) | € 
num — digits optional_fraction optional_exponent 
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5. 关键 字 要 被 保留 而 且 在 文法 中 以 黑体 字 出 现 。 

6. 关系 运算 符 (relop ) 是 指 : =, <>, <, <=, >= 和 >。 注 意 <> 表 示 天 。 
7. addop 指 的 是 +、- Alor. 

8. mulop 指 的 是 *、/、qaiv、mod 和 and。 

9. 记号 assignop 的 词素 是 :=。 


A.5 推荐 练习 


适合 一 学 期 课程 的 编程 练习 是 为 上 面 定义 的 语言 或 者 别 的 高 级 语言 的 相似 子 集 编写 一 个 解 
释 器 。 该 项 目 主要 包括 将 源 程序 翻译 成 四 元 式 或 者 栈 式 机 器 代码 这 样 的 中 间 表 示 ， 然 后 再 对 中 
间 表 示 进 行 解释 。 对 于 模块 的 构造 我 们 应 规划 一 个 顺序 。 该 顺序 不 同 于 编译 器 中 模块 被 执行 的 
顺序 ， 因 为 用 一 个 能 运转 的 解释 器 来 调试 其 他 编译 器 组 件 是 比较 方便 的 。 

1. 设计 符号 表 。 决 定 符号 表 的 组 织 方式 。 要 考虑 收集 有 关 名 字 的 信息 ， 但 此 时 还 要 保证 符 
号 表 记 录 结构 的 灵活 性 。 要 编写 程序 来 完成 以 下 工作 ， 

i) 在 符号 表 中 查找 给 定 的 名 字 ， 如 果 该 名 字 在 符号 表 中 不 存在 ， 就 在 符号 表 中 为 其 创建 新 
的 表 项 ， 否 则 返回 指向 该 名 字 的 指针 。 

it) 从 符号 表 中 删除 给 定 过 程 的 所 有 局 部 名 字 。 

2. 为 四 元 式 编写 解释 器 。 此 时 四 元 式 集 仍 可 保持 开放 而 不 需 精确 地 确定 下 来 ， 但 应 包含 对 
应 语言 中 操作 符 集 合 的 算术 和 条 件 跳 转 语句 。 如 果 条 件 是 用 算术 方式 确定 的 而 不 是 用 程序 中 的 
位 置 确定 的 ， 则 还 应 包含 逻辑 运算 。 另 外 ， 整 数 到 实数 的 转换 、 过 程 开 头 和 结尾 的 标记 以 及 参 
数 传递 和 过 程 调用 ， 预 计 都 会 用 到 四 元 式 。 

此 时 还 需要 为 被 解释 程序 设计 调用 序列 和 运行 时 的 组 织 方 式 。7.3 节 讨论 的 简单 栈 式 组 织 
适用 于 本 示例 语言 ， 因 为 在 该 语言 中 不 允许 过 程 声明 的 垦 套 ; 也 就 是 说 ， 变 量 或 者 是 全 局 的 
( 在 整个 程序 的 级 别 上 声明 的 ) 或 者 对 简单 过 程 来 说 是 局 部 的 。 

为 简单 起 见 ， 可 以 用 另 一 个 高 级 语言 来 代替 该 解释 器 。 每 个 四 元 式 可 以 是 C， 甚 至 Pascal 
这 样 的 高 级 语言 的 一 条 语句 。 那 么 编译 器 的 输出 就 是 一 系列 C 语言 语句 ， 于 是 就 可 以 用 已 有 
的 C 语言 编译 器 来 编译 。 该 方法 使 得 实现 者 能 够 将 精力 集中 在 运行 时 的 组 织 方式 上 。 

3. 编写 词法 分 析 器 。 为 记号 选择 内 码 ， 决 定常 数 在 编译 器 中 的 表示 方式 ， 统 计 行 数 以 供 后 
面 的 错误 处 理 程序 使 用 ， 需 要 的 话 输出 源 程序 的 清单 ， 编 写 一 个 将 关键 字 填 人 符号 表 的 程序 ， 
将 词法 分 析 器 设计 成 一 个 可 以 由 语法 分 析 器 调用 并 返回 〈 记号， 属性 值 ) 对 的 子 程序 。 至 此 ， 
词法 分 析 器 所 检测 到 的 错误 可 以 通过 调用 错误 打印 子 程序 并 终止 执行 来 进行 处 理 。 

4. 编写 语义 动作 。 编 写生 成 四 元 式 的 语义 子 程序 ， 为 使 翻译 更 容易 ， 在 某 些 地 方 需要 修改 
文法 〈 关于 修改 文法 的 有 效 方法 请 参见 5.5 节 和 5.6 节 的 例子 ) ; 此 时 即 可 进行 语义 分 析 ， 必 要 
时 将 整数 转换 成 实数 。 

5. 编写 语法 分 析 器 。 如 果 手 边 有 LALR 语法 分 析 器 的 生成 器 可 用 ， 则 将 在 很 大 程度 上 简化 
语法 分 析 器 的 编写 。 如 果 手 边 有 Yace 这 样 的 处 理 二 义 性 文法 的 语法 分 析 器 生成 器 ， 则 可 以 将 表 
示 表 达 式 的 非 终结 符合 并 。 而 且 如 果 发 生 移 进 - 归 约 冲 突 则 执行 移 进 即 可 消除 悬空 else 二 义 性 。 

6. 编写 错误 处 理 例 程 。 准 备 恢复 词法 错误 和 语法 错误 ， 为 词法 、 语 法 和 语义 错误 打印 错误 
诊断 信息 。 

7. 评价 。 可 以 用 图 7-1 中 的 Pascal 程序 ， 该 程序 的 partition 函数 的 代码 对 应 于 图 10-2 
中 C 程序 的 标记 代码 段 。 如 果 有 描述 器 〈profiler )， 用 它 确定 一 下 编译 器 的 热点 。 考 虑 一 下 ， 


一 个 程序 座 矿 项 目 487 








为 提高 编译 器 的 速度 ， 哪 些 模块 需要 修改 ? 
A.6 解释 器 的 改进 


为 该 语言 构建 翻译 器 的 另 一 种 办 法 是 从 实现 一 个 桌面 计算 器 〈 即 表达 式 的 翻译 器 ) 开始 。 
然后 逐步 地 向 语言 中 添加 结构 直到 得 到 整个 语言 的 解释 器 。Kernighan and Pike[1984] 中 用 过 一 
个 类 似 的 方法 。 建 议 按 如 下 顺序 添加 结构 : 

1. 将 表达 式 翻译 成 后 组 表示 。 可 以 使 用 第 2 章 中 的 递归 下 降 语法 分 析 法 ， 也 可 以 使 用 语法 
分 析 器 生成 器 。 为 熟悉 编程 环境 ， 你 可 以 试 着 编写 一 个 将 简单 算术 表达 式 翻 译 成 后 弘 表示 的 翻 
译 器 。 

2. 添加 词法 分 析 器 。 在 上 面 构建 的 翻译 器 中 允许 出 现 关键 字 、 标 识 符 和 数字 。 为 翻译 器 重 
新 确定 目标 机 器 以 输出 栈 式 机 器 代码 或 者 四 元 式 。 

3. 为 中 间 表 示 编 写 解 释 器 。 如 A.5 节 中 讨论 的 那样 ， 高 级 语言 可 以 用 来 代替 解释 器 。 日 前 ， 
解释 器 只 需要 支持 算术 操作 、 赋 值 和 输入 /输出 。 通 过 允许 全 局 变量 声明 、 赋 值 语句 和 对 过 程 
read 和 write 的 调用 来 扩展 语言 。 这 些 结构 使 得 我 们 可 以 对 解释 器 进行 测试 。 

4. 添加 语句 。 现 在 ， 用 该 语言 编写 的 程序 由 一 个 不 含 子 程序 声明 的 主 程序 构成 。 对 翻译 器 
和 解释 器 都 要 进行 测试 。 

5. 添加 过 程 和 函数 。 现 在 ， 符 号 表 必 须 允 许 标识 符 的 作用 域 被 限制 在 过 程 体 中 。 设 计 一 个 
调用 序列 。 在 此 ， 使 用 7.3 节 的 简单 栈 式 组 织 就 足够 了 。 对 解释 器 进行 扩展 以 支持 该 调用 序列 。 


A.7 扩展 


不 用 大 幅 增 加 编译 的 复杂 性 即 可 将 许多 特征 添加 到 该 语言 中 。 这 些 特征 包括 : 
1. 多 维 数组 。 

2. for 语句 和 case 语句 。 

3. 块 结构 。 

4. 记录 结构 。 

如 果 时 间 人 允许 ， 将 这 些 扩展 中 的 一 个 或 多 个 添加 到 你 的 编译 器 中 。 





~ 
aA 
© 


参考 文献 


ABEL, N. E. anD J. R. BeLL [1972]. “Global optimization in compilers,” Proc. 
First USA-Japan Computer Conf., AFIPS Press, Montvale, N. J. 


ABELSON, H. AND G. J. Sussman [1985]. Structure and Interpretation of Com- 
puter Programs, MIT Press, Cambridge, Mass. 


Aprion, W. R., M. A. BRANSTAD, AND J. Ç. CHERNIAVSKY [1982]. ‘‘Valida- 


tion, verification, and testing of computer software,” Computing Surveys 
14:2, 159-192. 


Ano, A. V. [1980]. “Pattern matching in strings,” in Book [1980], pp. 325- 
347. 


Ano, A. V. anD M. J. CoRAsICK [1975]. “Efficient string matching: an aid to 
bibliographic search," Comm. ACM 18:6, 333-340. 


Ano, A. V. and M. GANAPATHI [1985]. “Efficient tree pattern matching: an 
aid to code generation,” Twelfth Annual ACM Symposium on Principles of 
Programming Languages, 334-340. 


Ano, A. V., J. E. Hopcrorr, anD J. D. ULLMAN [1974]. The Design and 
Analysis of Computer Algorithms, Addison-Wesley, Reading, Mass. 


Ano, A. V., J. E. Hopcrort, AND J. D. ULLMAN [1983]. Data Structures and 
Algorithms, Addison-Wesley, Reading, Mass. 


Ano, A. V. AND S. C. Jounson [1974]. “LR parsing,” Computing Surveys 6:2, 
99-124. ' 


Ano, A. V. AND S. C. JoHNSON [1976]. Optimal code generation for expres- 
sion trees,” J. ACM 23:3, 488-501. 


Ano, A. V., S. C. Jonnson, AND J. D. ULLMAN [1975]. “Deterministic parsing 
of ambiguous grammars,” Comm. ACM 18:8, 441-452. 


Auo, A. V., S. C. JOHNSON, AND J. D. ULLMAN [1977a]. “Code generation for 
expressions with common subexpressions,” J. ACM 24:1, 146-160. 


Ano, A. V., S. C. JOHNSON, AND J. D. ULLMAN {1977b]. “Code generation for 
machines with multiregister operations,” Fourth ACM Symposium on Prin- 
ciples of Programming Languages, 21-28. 


Ano, A. V., B. W. KERNIGHAN, AND P. J. WEINBERGER [1979]. “Awk — a 


pattern scanning and processing language,” Software—Practice and Experi- 
ence 9:4, 267-280. 


Ano, A. V. and T. G. PETERSON [1972]. “A minimum distance error- 


correcting parser for context-free languages,” SIAM J. Computing 1:4, 
305-312. 


Ano, A. V. anD R. SETHI [1977]. “How hard is compiler code generation?” 
Lecture Notes in Computer Science 52, Springer-Verlag, Berlin, 1-15. 


Auo, A. V. AND J. D. ULLMAN (1972a]. “Optimization of straight line code,” 
SIAM J. Computing 1:1, 1-19. 


AHO, A. V. AND J. D. ULLMAN [1972b]. The Theory of Parsing, Translation 
and Compiling, Vol. I: Parsing, Prentice-Hall, Englewood Cliffs, N. J. 


Axo, A. V. anD J. D. ULLMAN [1973a]. The Theory of Parsing, Translation 


490 





and Compiling, Vol. IL: Compiling, Prentice-Hall, Englewood Cliffs, N. J. 


Ano, A. V. AND J. D. ULLMAN [1973b]. “A technique for speeding up LR(k) 
parsers,” SIAM J. Computing 2:2, 106-127. 


Ano, A. V. and J. D. ULiMAN [1977]. Principles of Compiler Design, 
Addison-Wesley, Reading, Mass. 


AIGRAIN, P., S. L. GRAHAM, R. R. Henry, M. K. McKusick, AND E. PELEGRI- 
LLoPART [1984]. “Experience with a Graham-Glanville style code genera- 
tor,” ACM SIGPLAN Notices 19:6, 13-24. 


ALLEN, F. E. [1969]. “Program optimization,” Annual Review in Automatic 
Programming 5, 239-307. 


ALLEN, F. E. {1970}. ‘‘Control flow analysis,” ACM SIGPLAN Notices 5:7, 1- 
19. 


ALLEN, F. E. [1974]. “lnterprocedural data flow analysis,” Information Pro- 
cessing 74, North-Holland, Amsterdam, 398-402. 


ALLEN, F. E. [1975]. “Bibliography on program optimization,” RC-5767, 
IBM T. J. Watson Research Center, Yorktown Heights, N. Y. 


ALLEN, F. E., J. L. CARTER, J. FABRI, J. Ferrante, W. H. Harrison, P. G. 
LOEWNER, AND L. H. TREVILLYAN [1980]. “The experimental compiling 
system,” IBM. J. Research and Development 24:6, 695-715. 


ALLEN, F. E. AND J. Cocke [1972]. “A catalogue of optimizing transforma- 
tions,” in Rustin [1972], pp. 1-30. 


ALLEN, F. E. ann J. Cocke (1976). “A program data flow analysis pro- 
cedure,” Comm. ACM 19:3, 137-147. 


Auten, F. E., J. Cocke, anb K. Kennepy [1981]. “Reduction of operator 
strength,” in Muchnick and Jones [1981], pp. 79-101. 


Ammann, U. [1977]. “On code generation in a Pascal compiler,” Software— 
Practice and Experience 7:3, 391-423. 


Ammann, U. [1981]. “The Zurich implementation,” in Barron [1981], pp. 
63-82. : 


ANDERSON, J. P. [1964]. 


“A note on some compiling algorithms,” Comm. 
ACM 7:3, 149-150. 


ANDERSON, T., J. Eve, anp J. J. HoRNING [1973]. “Efficient LR(1) parsers,” 
Acta Informatica 2:1, 12-39. 


ANKLAM, P., D. Cutter, R. Heinen, JR., AND M. D. MacLaren [1982]. 
Engineering a Compiler, Digital Press, Bedford, Mass. 


ARDEN, B. W., B. A. GALLER, AND R. M. GrAHAM [1961]. “An algorithm for 
equivalence declarations,” Comm. ACM 4:7, 310-314. 


AUSLANDER, M. A. AND M. E. Hopkins [1982]. “An overview of the PL.8 
compiler,” ACM SIGPLAN Notices 17:6, 22-31. 


Backuouse, R. C. [1976]. “An alternative approach to the improvement of 
LR parsers,” Acta Informatica 6:3, 277-296. 


Backnouse, R. C. [1984]. “Global data flow analysis problems arising in 
locally least-cost error recovery,” TOPLAS 6:2, 192-214. 


Backus, J. W. (1981]. “Transcript of presentation on the history of Fortran [, 
Il, and HH,” in Wexelblat [1981], pp. 45-66. 


Backus, J. W., R. J. BEEBER, S. Best, R. GoLDBERG, L. M. HAIBT，H. L. HER- 


参考 文献 





RICK, R. A. NELson, D. Sayre, P. B. SHERIDAN, H. STERN, I. ZILLER, R. 
A. Huaues, ano R. Nutt [1957]. “The Fortran automatic coding sys- 


tem,” Western Joint Computer Conference, 188-198. Reprinted in Rosen 
[1967], pp. 29-47. 


Baker, B. S. [1977]. “An algorithm for structuring programs,” J. ACM 24:1, 
98-120. 


Baker, T. P. [1982]. “A one-pass algorithm for overload resolution in Ada,” 
TOPLAS 4:4, 601-614. 


BANNING, J. P. [1979]. “An efficient way to find the side effects of procedure 
calls and aliases of variables,” Sixth Annual ACM Symposium on Principles 
of Programming Languages, 29-4}. 


Barron, D. W. [1981]. Pascal - The Language and its implementation, Wiley, 
Chichester. 


Barth, J. M. [1978]. “A practical interprocedural data flow analysis algo- 
rithm,” Comm. ACM 21:9, 724-736. 


Batson, A. [1965]. “The organization of symbol tables,” Comm. ACM 8:2, 
(11-112. 


Bauer, A. M. and H. J. Saaz [1974]. “Does APL really need run-time check- 
ing?” Software—Practice and Experience 4:2, 129-138. 


Bauer, F. L. [1976]. “Historical remarks on compiler construction,” in Bauer 


and Eickel [1976], pp. 603-621. Addendum by A. P. Ershov, pp. 622- 
626. 


Bauer, F. L. and J. Eicket [1976]. Compiler Construction: An Advanced 


Course, 2nd Ed., Lecture Notes in Computer Science 21, Springer-Verlag, 
Berlin. 


Bauer, F. L. AND H. Wossner [1972]. “The ‘Plankankil’ of Konrad Zuse: A 


forerunner of today’s programming languages,” Comm. ACM 15:7, 678- 
685. 


Beatty, J. C. [1972]. “An axiomatic approach to code optimization for 
expressions,” J. ACM 19:4, 714-724. Errata 20 (1973), p. 180 and 538. 


Beatty, J. C. [1974]. “Register assignment algorithm for generation of 


highly optimized object code,” JBM J. Research and Development 5:2, 20- 
39. 


Becapy, L. A. [1966]. “A study of replacement algorithms for a virtual 
storage computer,” JBM Systems J. 5:2, 78-101. 


Bentiey, J. L. [1982]. Writing Efficient Programs, Prentice-Hall, Englewood 
Cliffs, N. J. 


BENTLEY, J. L., W. S. CLEVELAND, AND R. Serni [1985]. “Empirical analysis 


of hash functions,” manuscript, AT&T Bell Laboratories, Murray Hill, 
N. J. 


Birman, A. AND J. D. ULLMAN [1973]. “Parsing algorithms with backtrack,” 
Information and Control 23:1, 1-34. 


BocHMANN, G. V. [1976]. “Semantic evaluation from left to right,” Comm. 
ACM 19:2, 55-62. 


BocuMann, G. V. anp P. Warp [1978]. “Compiler writing system for attri- 
bute grammars,” Computer J. 21:2, 144-148. 


Book, R. V. [1980]. Formal Language Theory, Academic Press, New York. 
Boyer, R. S. ano J S. Moore [1977]. "A fast string searching algorithm,” 


49] 


492 


KH È 





Comm. ACM 20:10, 262-272. 


Branquart, P., J.-P. CARDINAEL, J. Lewi, J.-P. DELESCAILLE, AND M. VANBEGIN 
[1976]. An Optimized Translation Process and its Application to Algol 68, 
Lecture Notes in Computer Science, 38, Springer-Verlag, Berlin. 


Bratman, H. [1961]. “An alternate form of the ‘Uncol diagram’,” Comm. 
ACM 4:3, 142. 


Brooker, R. A. AND D. Morris [1962]. “A general translation program for 
phrase structure languages,” J. ACM 9:1, 1-10. 


Brooks, F. P., Jr. [1975]. The Mythical Man-Month, Addison-Wesley, Read- 
ing, Mass. 


Brosco., B. M. [1974]. Deterministic Translation Grammars, Ph. D. Thesis, 
TR 3-74, Harvard Univ., Cambridge, Mass. 


Bruno, J. AND T. LassaGne [1975]. “The generation of optimal code for stack 
machines,” J. ACM 22:3, 382-396. 


Bruno, J. anb R. Serki [1976]. “Code generation for a one-register 
machine,” J. ACM 23:3, 502-510. 


Burstat., R. M., D. B. MacQueen, AND D. T. SANNELLA [1980]. “Hope: an 
experimental applicative language,” Lisp Conference, P.O. Box 487, Red- 
wood Estates, Calif. 95044, 136-143. 


Busam, V. A. anp D. E. ENGLUND [1969]. “Optimization of expressions in 
Fortran,” Comm. ACM 12:12, 666-674. 


CARDELLI, L. [1984]. “Basic polymorphic typechecking,” Computing Science 
Technical Report 112, AT&T Bell Laboratories, Murray Hill, N. J. 


Carter, L. R. [1982]. An Analysis of Pascal Programs, UMI Research Press, 
Ann Arbor, Michigan. 


CARTWRIGHT, R. [1985]. “Types as intervals,” Twelfth Annual ACM Symposium 
on Principles of Programming Languages, 22-36, 


CATTELL, R. G. G. [1980}. “Automatic derivation of code generators from 
machine descriptions,” TOPLAS 2:2, 173-190. 


Cuartin, G. J. [1982]. “Register allocation and spilling via graph coloring,” 
ACM SIGPLAN Notices 17:6, 201-207. 


CHAITIN, G, J., M. A. AusLanper, A. K. CHANDRA, J. Cocke, M. E. Hopkins, 
AND P. W. MARKSTEIN [1981]. “Register allocation via coloring,” Com- 
puter Languages 6, 47-57. 

CHERNIAVSKY, J. C., P. B. HENDERSON, AND J. KEOHANE [1976]. “On the 
equivalence of URE flow graphs and reducible flow graphs,” Proc. 1976 


Conference on Information Sciences and Systems, Johns Hopkins Univ., 
423-429. 


Cuerry, L. L. [1982]. ‘Writing tools,” JEEE Trans. on Communications 
COM-30:1, 100-104. 


Cuomsky, N. [1956]. ‘Three models for the description of language,” IRE 
Trans. on Information Theory IT-2:3, 113-124. 


Cuow, F. [1983]. A Portable Machine-Independent Global Optimizer, Ph. D. 
Thesis, Computer System Lab., Stanford Univ., Stanford, Calif. 


CHow, F. anp J. L. Hennessy [1984]. ‘Register allocation by priority-based 
coloring,” ACM SIGPLAN Notices 19:6, 222-232. 


CHURCH, A. [1941]. The Calculi of Lambda Conversion, Annals of Math. Stu- 


RA XR 


dies, No. 6, Princeton University Press, Princeton, N. J. 


CHURCH, A. [1956]. Introduction to Mathematical Logic, Vol. I, Princeton 
University Press, Princeton, N. J. 


Ciesincer, J. [1979]. “A bibliography of error handling,” ACM SIGPLAN 
Notices 14:1, 16-26. 


Cocke, J. [1970]. “Global common subexpression elimination,” ACM SIG- 
PLAN Notices 5:7, 20-24. 


Cocke, J. AND K. Kennepy [1976]. “Profitability computations on program 
flow graphs,” Computers and Mathematics with Applications 2:2, 145-159. 


Cocke, J. AND K. Kennepy [1977]. “An algorithm for reduction of operator 
strength,” Comm. ACM 20:11, 850-856. 


Cocke, J. and J. MARKSTEIN [1980]. “Measurement of code improvement 
algorithms,” Information Processing 80, 221-228. 


Cocke, J. AND J. MILLER [1969]. “Some analysis techniques for optimizing 


computer programs,” Proc. 2nd Hawaii Intl. Conf. on Systems Sciences, 
143-146. 


Cocke, J. and J. T. Scuwartz [1970]. Programming Languages and Their 
Compilers: Preliminary Notes, Second Revised Version, Courant Institute of 
Mathematical Sciences, New York. 


Corrman, E. G., Jr. anD R. SETHI [1983]. “Instruction sets for evaluating 
arithmetic expressions,” J. ACM 30:3, 457-478. 


Conen, R. anp E. Harry {1979}. ‘Automatic generation of near-optimal 
linear-time translators for non-circular attribute grammars,” Sixth ACM 
Symposium on Principles of Programming Languages, 121-134. 


Conway, M. E. [1963]. “Design of a separable transition diagram compiler,” 
Comm. ACM 6:7, 396-408. 


Conway, R. W. AND W. L. MAXwELL [1963]. “CORC — the Cornell comput- 
ing language,” Comm. ACM 6:6, 317-321. 


Conway, R. W. anp T. R. Wilcox [1973]. “Design and implementation of a 
diagnostic compiler for PL/I, Comm. ACM 16:3, 169-179. 

Cormack, G. V. [198i]. “An algorithm for the selection of overloaded 
functions in Ada,” ACM SIGPLAN Notices 16;2 (February) 48-52. 


Cormack, G. V., R. N. S. HoRSPOOL，AND M. KAISERSWERTH [1985]. “Practi- 
cal perfect hashing,” Computer J. 28:1, 54-58. 


CourcELLE, B. [1984]. “Attribute grammars: definitions, analysis of depen- 
dencies, proof methods,” in Lorho [1984], pp. 81-102. 


Cousot, P. [1981]. “Semantic foundations of program analysis,” in Muchnick 
and Jones [1981], pp. 303-342. 


Cousot, P. AND R. Cousot [1977]. ‘Abstract interpretation: a unified lattice 
model for static analysis of programs by construction or approximation of 
fixpoints,” Fourth ACM Symposium on Principles of Programming 
Languages, 238-252. 


Curry, H. B. AND R. Feys [1958]. Combinatory Logic, Vol. 1, North-Holland, 
Amsterdam. 


Date, C. J. (1986]. An Introduction to Database Systems, 4th Ed., Addison- 
Wesley, Reading, Mass. 


Davipson, J. W. anD C. W. Fraser [1980]. “The design and application of a 


493 





494 KH XT Ak 


retargetable peephole optimizer,” TOPLAS 2:2, 191-202. Errata 3:1 
(4981) 110. 


Davipson, J. W. anb C. W. Fraser [1984a]. “Automatic generation of 
peephole optimizations,” ACM SIGPLAN Notices 19:6, 111-116. 


Davipson, J. W. AND C. W. Fraser {1984b], “Code selection through object 
code optimization,” TOPLAS 6:4, 505-526. 


DeRemer, F. [1969]. Practical Translators for LR(k) Languages, Ph. D. 
Thesis, M.I.T., Cambridge, Mass. 


DeRemer, F. [1971]. “Simple LR(k) grammars,” Comm. ACM 14:7, 453-460. 


DeRemer, F. anp T. PENNELLO [1982]. “Efficient computation of LALR(1) 
look-ahead sets,” TOPLAS 4:4, 615-649. 


Demers, A. J. [1975]. “Elimination of single productions and merging of 


nonterminal symbols in LR(1) grammars,” J. Computer Languages 1:2, 
105-119. 


Dencker, P., K. DuRRE, AND J. HEUFT {1984}. “Optimization of parser tables 
for portable compilers,” TOPLAS 6:4, 546-572. 


DeransarT, P., M. Jourpan, AND B. Lorno [1984]. “Speeding up circularity 
tests for attribute grammars,” Acta Informatica 21, 375-39}. 


Despeyroux, T. [1984]. “Executable specifications of static semantics,” in 
Kahn, MacQueen, and Plotkin [1984], pp. 215-233. 

Duxsrra, E. W. [1960]. “Recursive programming,” Numerische Math. 2, 
312-318. Reprinted in Rosen [1967], pp. 221-228. 


Duxstra, E. W. [1963]. “An Algol 60 translator for the X1,” Annual Review 
in Automatic Programming 3, Pergamon Press, New York, 329-345. 


DirzeL, D. ano H. R. McLean [1982]. “Register allocation for free: the C 
machine stack cache,” Proc. ACM Symp. on Architectural Support for Pro- 
gramming Languages and Operating Systems, 48-56. 


Downey, P. J. ano R. SETHI [1978]. "Assignment commands with array refer- 
ences,” J. ACM 25:4, 652-666. 


Downey, P. J., R. Semi, ano R. E. Tarsan [1980]. “Variations on the com- 
mon subexpression problem,” J. ACM 27:4, 758-771. 


EarLEY, J. [1970]. “An efficient context-free parsing algorithm,” Comm. 
ACM 13:2, 94-102. 


EarLeY, J. [1975a]. “Ambiguity and precedence in syntax description,” Acta 
Informatica 4:2, 183-192. 


EarLEY, J. [1975b]. “High level iterators and a method of data structure 
choice,” J. Computer Languages 1:4, 321-342. 


ELsHorFF, J. L. [1976]. “An analysis of some commercial PL/I programs,” 
IEEE Trans. Software Engineering SE2:2, 113-120. 


ENGELFRIET, J. [1984]. “Attribute evaluation methods,” in Lorho [1984], pp. 
103-138. 


Ersov, A. P. [1958]. “On programming of arithmetic operations,” Comm. 
ACM 1:8 (August) 3-6. Figures 1-3 appear in 1:9 (September 1958), p. 
16. 


ErsHov, A. P. {1966}. “Alpha — an automatic programming system of high 
efficiency,” J. ACM 13:1, 17-24. 


Ersuov, A. P. [1971]. The Alpha Automatic Programming System, Academic 


RE TX tk 


Press, New York. 


ErsHov, A. P. ann C. H. A. Koster [1977]. Methods of Algorithmic Language 
implementation, Lecture Notes in Computer Science 47, Springer-Verlag, 
Berlin. 


Fang, I. [1972]. “FOLDS, a declarative formal language definition system,” 
STAN-CS-72-329, Stanford Univ. 


Farrow, R. [1984]. “Generating a production compiler from an attribute 
grammar,” IEEE Software 1 (October) 77-93. 


Farrow, R. anp D. YELLIN [1985]. “A comparison of storage optimizations in 
automatically-generated compilers,” manuscript, Columbia Univ. 


FELDMAN, S. I. {1979a]. “Make - a program for maintaining computer 
programs,” Software—Practice and Experience 9:4, 255-265, 


FELDMAN，S. [. [1979b]. ‘Implementation of a portable Fortran 77 compiler 
using modern tools,” ACM SIGPLAN Notices 14:8, 98-106. 


FiscHER, M. J. [1972]. “Efficiency of equivalence algorithms,” in Miller and 
Thatcher [1972], pp. 153-168. 


Fleck, A. C. [1976]. “The impossibility of content exchange through the by- 


name parameter transmission technique,” ACM SIGPLAN Notices 11:11 
(November) 38-41. 


Fioyp, R. W. [1961]. “An algorithm for coding efficient arithmetic expres- 
sions,” Comm. ACM 4:1, 42-51. 


FLoYp, R. W. [1963]. “Syntactic analysis and operator precedence,” J. ACM 
10:3, 316-333. 


FLovp, R. W. [1964]. “Bounded context syntactic analysis,” Comm. ACM 
7:2, 62-67. 


Fonc, A. C. [1979]. “Automatic improvement of programs in very high level 


languages,” Sixth Annual ACM Symposium on Principles of Programming 
Languages, 21-28. 


Fonc, A. C. anp J. D. ULLMAN [1976]. “Induction variables in very high-level 


languages,” Third Annual ACM Symposium on Principles of Programming 
Languages, 104-112. 


Fospick, L. D. anb L. J. Osrerwei [1976]. “Data flow analysis in software 
reliability,” Computing Surveys 8:3, 305-330. 


Foster, J. M. [1968]. “A syntax improving program,” Computer J. 11:1, 
31-34, 


Fraser, C. W. [1977]. Automatic Generation of Code Generators, Ph. D. 
Thesis, Yale Univ., New Haven, Conn. 


Fraser, C. W. [1979]. “A compact, machine-independent peephole optim- 
izer,” Sixth Annual ACM Symposium on Principles of Programming 
Languages, 1-6. 


Fraser, C. W. anp D. R. Hanson [1982]. “A machine-independent linker,” 
Software—Practice and Experience 12, 351-366. 


FrepMan, M. L., J. KomLos, AND E. SzEMERED! [1984]. “Storing a sparse 
table with O (1) worst case access time,” J. ACM 31:3, 538-544. 


Frece, G. [1879]. “Begriffsschrift，a formula language, modeled upon that of 
arithmetic, for pure thought,” in Heijenoort [1967], 1-82. 


FREIBURGHOUSE, R. A. [1969]. “The Multics PL/I compiler,” AFIPS Fall Joint 


495 





496 参考 文献 


Computer Conference 35, 187-208. 


FREIBURGHOUSE, R. A. [1974]. “Register allocation via usage counts,” Comm. 
ACM 17:11, 638-642. 


FREUDENBERGER, S. M. [1984]. “On the use of global optimization algorithms 
for the detection of semantic programming errors,” NSO-24, New York 
Univ. 


FREUDENBERGER, S. M., J. T. SCHWARTZ, AND M. SHARIR [1983]. “Experience 
with the SETL optimizer,” TOPLAS 5:1, 26-45. 


Gawæwsa, H. [1975]. “Some statistics on the usage of the C language,” 
AT&T Bell Laboratories, Murray Hill, N. J. 


GALLER, B. A. anp M. J. FiscHER [1964]. “An improved equivalence algo- 
rithm,” Comm. ACM 7:5, 301-303. 


GanapaTul, M. [1980]. Retargetable Code Generation and Optimization using 
Attribute Grammars, Ph. D. Thesis, Univ. of Wisconsin, Madison, Wis. 


GANAPATHI, M. anp C. N. Fiscuer [1982]. ‘‘Description-driven code genera- 
tion using attribute grammars,” Ninth ACM Symposium on Principles of 
Programming Languages, 108-119. 


GANAPATHI, M., C. N. FISCHER, AND J. L. Hennessy [1982]. ‘‘Retargetable 
compiler code generation,” Computing Surveys 14:4, 573-592. 


Gannon, J. D. AND J. J. HoRNING [1975]. “Language design for programming 
reliability,” JEEE Trans. Software Engineering SE-1:2, 179-191. 


Ganzincer, H., R. Giecericu, U. MONCKE, AND R. WILHELM [1982]. “A truly 


generative semantics-directed compiler generator,” ACM SIGPLAN Notices 
17:6 (June) 172-184. 


Ganzincer, H. AND K. Ripken [1980]. ‘Operator identification in Ada,” ACM 
SIGPLAN Notices 15:2 (February) 30-42. 


Garey, M. R. and D. S. JoHNson [1979]. Computers and Intractability: A 
Guide to the Theory of NP-Completeness, Freeman, San Francisco. 


Gear, C. W. [1965]. "High speed compilation of efficient object cade,” 
Comm. ACM 8:8, 483-488. 


Gescuke, C. M. [1972]. Global Program Optimizations, Ph. D. Thesis, Dept. 
of Computer Science, Carnegie-Mellon Univ. 


Guecericn, R. [1983]. “A formal framework for the derivation of machine- 
specific optimizers,” TOPLAS 5:3, 422-448. 


GiecericH, R. anp R. WiLHELM [1978]. “Counter-one-pass features in one- 
pass compilation: a formalization using attribute grammars,” Information 
Processing Letters 7:6, 279-284. 


GLANVILLE, R. S. {1977). A Machine Independent Algorithm for Code 


Generation and its Use in Retargetable Compilers, Ph. D. Thesis, Univ. of 
California, Berkeley. 


GLANVILLE, R. S. anp S. L. Granam [1978]. “A new method for compiler 
code generation,” Fifth ACM Symposium on Principles of Programming 
Languages, 231-240. 


GRAHAM, R. M. [1964]. “Bounded context translation,” AFIPS Spring Joint 
Computer Conference 40, 205-217. Reprinted in Rosen [1967], pp. 184- 
205. 


GRAHAM，S. L. [1980]. “Table-driven code generation,” Computer 13:8, 25- 
34. 


RE XT ik 497 





GRAHAM, S. L. [1984]. “Code generation and optimization," in Lorho [1984], 
pp. 251-288. 


Granam, S. L., C. B. HALEY，AND W. N. Joy [1979]. “Practical LR error 
recovery,” ACM SIGPLAN Notices 14:8, (68-175. 


GRAHAM, S. L., M. A. Harrison, AND W. L. Ruzzo [1980]. “An improved 
context-free recognizer,” TOPLAS 2:3, 415-462. 


GRAHAM, S. L. anp S. P. Ruopes [1975]. “Practical syntactic error recovery,” 
Comm. ACM 18:11, 639-650. 


GrAHAM, S. L. AND M. Wegman [1976]. “A fast and usually linear algorithm 
for global data flow analysis,” J. ACM 23:1, 172-202. 


Grau, A. A., U. HILL, anb H. LANGMAACK [1967]. Translation of Algol 60, 
Springer-Verlag, New York. 


Hanson, D. R. [1981]. “Is block structure necessary?” Software—Practice and 
Experience 11, 853-866. 


Harrison, M. C. {1971}. “Implementation of the substring test by hashing,” 
Comm. ACM 14:12, 777-779. 


Harrison, W. [1975]. “A class of register allocation algorithms,” RC-5342, 
IBM T. J. Watson Research Center, Yorktown Heights, N. Y. 


Harrison, W. [1977|. “Compiler analysis of the value ranges for variables,” 
IEEE Trans. Software Engineering 3:3. 


Hecut, M. S. [1977]. Flow Analysis of Computer Programs, North-Holland, 
New York. 


Hecut, M. S., ano J. B. SHAFFER [1975]. “Ideas on the design of a ‘quad 
improver’ for SIMPL-T, part I: overview and intersegment analysis,” 
Dept. of Computer Science, Univ. of Maryland, College Park, Md. 


Hecut, M, S. ano J. D, ULLMAN {1972[. “Flow graph reducibility,” SIAM J. 
Computing 1, 188-202. 


Hecut, M. S. ano J. D. ULLMAN [1974]. “Characterizations of reducible flow 
graphs,” J. ACM 21, 367-375. 


Hecut, M. S. anp J. D. ULLMAN [1975]. “A simple algorithm for global data 
flow analysis programs,” SIAM J. Computing 4, 519-532. 


HEevenoort, J. vaN [1967]. From Frege to Godel, Harvard Univ. Press, Cam- 
bridge, Mass. 


Hennessy, J. [1981]. “Program optimization and exception handling,” Eighth 


Annual ACM Symposium on Principles of Programming Languages, 200- 
206. 


Hennessy, J. [1982]. ‘Symbolic debugging of optimized code,” TOPLAS 4:3, 
323-344. 


Henry, R. R. [1984]. Graham-Glanville Code Generators, Ph. D. Thesis, 
Univ. of California, Berkeley. 


Hext, J. B. {1967}. “Compile time type-matching,”’ Computer J. 9, 365-369. 


HiNDLEY, R. [1969]. “The principal type-scheme of an object in combinatory 
logic,” Trans. AMS 146, 29-60. 


Hoare, C. A. R. [1962a]. “‘Quicksort,” Computer J. 5:1, 10-15. 


Hoare, C. A. R. [1962b]. “Report on the Elliott Algol translator,” Computer 
J. 5:2, 127-129. . 


498 RH SX bk 





HorrMan, C. M. anp M. J. O'DoNNELL {1982]. “Pattern matching in trees,” 
J. ACM 29:1, 68-95. 


Hopcrort, J. E. anD R. M. Karp [1971]. “An algorithm for testing the 
equivalence of finite automata,” TR-71-114, Dept. of Computer Science, 
Cornell Univ. See Aho, Hopcroft, and Ullman [1974], pp. 143-145. 


Hopcrort, J. E. AND J. D. ULLMAN [1969]. Formal Languages and Their Rela- 
tion to Automata, Addison-Wesley, Reading, Mass. 


Horecrort, J. E. anb J. D. ULLMAN [1973]. “Set merging algorithms,” SIAM 
J, Computing 2:3, 294-303. 


Hopcrort, J, E. AND J. D. ULLMAN [1979]. Introduction to Automata Theory, 
Languages, and Computation, Addison-Wesley, Reading, Mass. 


Horninc, J. J. [1976]. “What the compiler should tell the user,” in Bauer 
and Eickel [1976]. 


Horwitz, L. P., R. M. Karp, R. E. MILLER, AND S. WINOGRAD [1966]. “Index 
register allocation,” J. ACM 13:1, 43-61. 


Huet, G. AND G. Kann (EDs,) [1975]. Proving and Improving Programs, Col- 
loque IRIA, Arc-et-Senans, France. 


Huet, G. AND J.-J. Levy [1979]. “Call-by-need computations in nonambigu- 


ous linear term rewriting systems,” Rapport de Recherche 359, INRIA 
Laboria, Rocquencourt. 


Hurrman, D. A. [1954]. “The synthesis of sequential machines,” J. Franklin 
Inst. 257, 3-4, 161, 190, 275-303. 


Hunt, J. W. anp M. D. MclLroY [1976]. “An algorithm for differential file 
comparison,” Computing Science Technical Report 41, AT&T Bell 
Laboratories, Murray Hill, N. J. 


Hunt, J. W. AND T. G. Szymanski [1977]. “A fast algorithm for computing 
longest common subsequences,” Comm. ACM 20:5, 350-353. 


Husey, H. D., M. H，HALSTEAD，AND R. McArtuur [1960]. “Neliac 一 a 
dialect of Algol,” Comm. ACM 3:8, 463-468. 


IcHBIAH, J. D. AND S. P. Morse [1970]. “A technique for generating almost 


optimal Floyd-Evans productions for precedence grammars,” Comm. ACM 
13:8, 501-508. 


IncarLs, D. H. H. {1978]. “The Smalltalk-76 programming system design and 


implementation,” Fifth Annual ACM Symposium on Principles of Program- 
ming Languages, 9-16. 


INGERMAN, P. Z. [1967]. “Panini-Backus form suggested,” Comm. ACM 10:3, 
137. 


Irons, E. T. [1961]. “A syntax directed compiler for Algol 60,” Comm. ACM 
4:1, 51-55. 


Irons, E. T. [1963]. “An error correcting parse algorithm,” Comm. ACM 
6:11, 669-673. 


IvERSON, K. [1962]. A Programming Language, Wiley, New York. 


Janas, J. M. [1980]. “A comment on “Operator identification in Ada” by 
Ganzinger and Ripken,” ACM SIGPLAN Notices 15:9 (September) 39-43. 


Jarvis, J. F. [1976}. “Feature recognition in line drawings using regular 
expressions,” Proc. 3rd Intl. Joint Conf. on Pattern Recognition, 189-192. 


RE SX bk 499 





JAZAYERI, M., W. F. OGpEN, AND W. C. Rounps [1975]. “The intrinsic 
exponential complexity of the circularity problem for attribute gram- 
mars,” Comm. ACM 18:12, 697-706. 


JAZAYERI, M. AND D. Pozersky [1981]. ‘‘Space-efficient storage management 
in an attribute grammar evaluator,” TOPLAS 3:4, 388-404. 


JAZAYERI, M. AND K. G. Wacter [1975]. “Alternating semantic evaluator,” 
Proc. ACM Annual Conference, 230-234. 


JENSEN, K. AND N. WirTH [1975]. Pascal User Manual and Report, Springer- 
Verlag, New York. 


Jounson, S. C. [1975]. “Yacc ~ yet another compiler compiler,” Computing 
Science Technical Report 32, AT&T Bell Laboratories, Murray Hill, N. J. 


Jorinson, S. C. [1978]. “A portable compiler: theory and practice,” Fifth 
Annual ACM Symposium on Principles of Programming Languages, 97-104. 


JoHNson, S. C. [1979]. “A tour through the portable C compiler,” AT&T Bell 
Laboratories, Murray Hill, N. J. 


Jounson, S. C. [1983]. “Code generation for silicon,” Tenth Annual ACM 
Symposium on Principles of Programming Languages, 14-19. 


JOHNSON, S. C. ano M. E. Lesk [1978]. “Language development tools,” Bell 
System Technical J. 57:6, 2155-2175. 


Jounson, S. C. anb D. M. Ritcute [1981]. “The C language calling 


sequence,” Computing Science Technical Report 102, AT&T Bell Labora- 
tories, Murray Hill, N. J. 


Jounson, W. L., J. H. Porter, S. I. AckLEY, ann D. T. Ross [1968]. 
“Automatic generation of efficient lexical processors using finite state 
techniques,” Comm. ACM 11:12, 805-813. 


Jounsson, R. K. [1975]. An Approach to Global Register Allocation, Ph. D. 
Thesis, Carnegie-Mellon Univ., Pittsburgh, Pa. 


JouaT, M. L. [1976]. “A simple technique for partial elimination of unit pro- 
ductions from LR(A parser tables," IEEE Trans. on Computers C-25:7, 
763-764. 


Jones, N. D. [1980]. Semantics Directed Compiler Generation, Lecture Notes 
in Computer Science 94, Springer-Verlag, Berlin. 


Jones, N. D. AND C. M. Mapsen [1980]. “Attribute-influenced LR parsing,” 
in Jones [1980], pp. 393-407. 


Jones, N. D. AND S. S. Mucunick [1976]. “Binding time optimization in pro- 
gramming languages,” Third ACM Symposium on Principles of Pregram- 
ming Languages, 77-94. 


Jourdan, M. [1984]. “Strongly noncircular attribute grammars and their 
recursive evaluation,” ACM SIGPLAN Notices 19:6, 81-93. 


Kaun, G., D. B. MacQueen, and G. PLoTKin [1984]. Semantics of Data 
Types, Lecture Notes in Computer Science 173, Springer-Verlag, Berlin. 


Kam, J. B. anb J. D. ULLMAN [1976]. “Global data flow analysis and iterative 
algorithms,” J. ACM 23:1, 158-171. 


Kam, J. B. anp J. D. ULLMAN [1977]. “Monotone data flow analysis frame- 
works,” Acta Informatica 7:3, 305-318. 


Karran, M. and J. D. ULLMAN [1980]. “A general scheme for the automatic 
inference of variable types,” J. ACM 27:1, 128-145. 


500 


BH X ak 





Kasami, T. [1965]. “An efficient recognition and syntax analysis algorithm 
for context-free languages,’ AFCRL-65-758, Air Force Cambridge 
Research Laboratory, Bedford, Mass. 


Kasai, T., W. W. Peterson, AND N. Tokura [1973]. “On the capabilities of 
while, repeat, and exit statements,’’ Comm. ACM 16:8, 503-512. 


Kastens, U. [1980]. “Ordered attribute grammars,” Acta Informatica 13:3, 
229-256. 


Kasrens, U., B. Hutt, ano E. ZIMMERMANN [1982]. GAG: A Practical Com- 
piler Generator, Lecture Notes in Computer Science 141, Springer-Verlag, 
Berlin. 


Kasyanov, V. N. [1973]. “Some properties of fully reducible graphs,” Infor- 
mation Processing Letters 2:4, 113-117. 


KATAYAMA, T. [1984]. “Translation of attribute grammars into procedures,” 
TOPLAS 6:3, 345-369. 


Kennepy, K. [1971]. “A global flow analysis algorithm,” Intern. J. Computer 
Math. Section A 3, 5-15. 


Kennepy, K. [1972]. “Index register allocation in straight line code and sim- 
ple loops,” in Rustin [1972], pp. 51-64. 


KENNEDY, K. [1976]. “A comparison of two algorithms for global flow 
analysis,” SIAM J. Computing 5:1, 158-180. 


Kennepy, K. [1981]. “A survey of data flow analysis techniques,” in 
Muchnick and Jones [1981], pp. 5-54. 


KENNEDY, K. AND J. RAMANATHAN [1979]. “A deterministic attribute grammar 
evaluator based on dynamic sequencing,” TOPLAS 1:1, 142-160. 


KENNEDY, K. AND S$. K. Warren [1976]. “Automatic generation of efficient 
evaluators for attribute grammars,” Third ACM Symposium on Principles 
of Programming Languages, 32-49. 


KERNIGHAN, B. W. [1975]. “Ratfor — a preprocessor for a rational Fortran,” 
Software—Practice and Experience 5:4, 395-406. 


KERNIGHAN, B. W. [1982]. “PIC ~ a language for typesetting graphics,” 
Software—Practice and Experience 12:1, 1-21. 


KERNIGHAN, B. W. ann L. L. Cuerry [1975]. “A system for typesetting 
mathematics,” Comm. ACM 18:3, 151-157. 


KERNIGHAN, B. W. ano R. Pike [1984]. The UNIX Programming Environment, 
Prentice-Hall, Englewood Cliffs, N. J. 


KERNIGHAN, B. W. ann D. M. RITCHIE [1978]. The C Programming Language, 
Prentice-Hall, Englewood Cliffs, N. J. 


KILDALL，G. [1973]. “A unified approach to global program optimization,” 
ACM Symposium on Principles of Programming Languages, 194-206. 


KLEENE, S. C. [1956]. “Representation of events in nerve nets,” in Shannon 
and McCarthy [1956], pp. 3-40. 


Knuta, D. E. [1962]. “A history of writing compilers,” Computers and Auto- 
mation (December) 8-18. Reprinted in Pollack [1972], pp. 38-56. 


Knut, D. E. [1964]. “Backus Normal Form vs. Backus Naur Form,” Comm. 
ACM 7:12, 735-736. 


KNuTH, D. E. [1965]. “On the translation of languages from left to right,” 


KH X bk 501 





Information and Control 8:6, 607-639. 


Knut, D. E. {1968}. “Semantics of context-free languages,” Mathematical 
Systems Theory 2:2, 127-145. Errata 5:1 (1971) 95-96. 


Knuth, D. E. [197la]. “Top-down syntax analysis,” Acta Informatica 1:2, 
79-110. 


KnutH, D. E. [1971b|. “An empirical study of FORTRAN programs,” 
Software—Practice and Experience 1:2, 105-133. 

KNUTH，D. E. [1973al. The Art of Computer Programming: Vol. 1, 2nd. Ed., 
Fundamental Algorithms, Addison-Wesley, Reading, Mass. 


KNUTH, D. E. [1973b]. The Art of Computer Programming: Vol. 3, Sorting and 
Searching, Addison-Wesley, Reading, Mass. 


Knutu, D. E. [1977]. “A generalization of Dijkstra’s algorithm,” Information 
Processing Letters 6, \-5. 


Knutu, D. E. [1984a]. The TEXbook, Addison-Wesley, Reading, Mass. 
Knutu, D. E. [1984b]. “Literate programming,” Computer J. 28:2, 97-111. 


Knuty, D. E. |1985,1986}. Computers and Typesetting, Vol. 1: TEX, Addison- 
Wesley, Reading, Mass. A preliminary version has been published under 
the title, “TX: The Program.” 


Knuta, D. E., J. H. Morris, AND V. R. Pratt [1977]. “Fast pattern matching 
in strings,” STAM J. Computing 6:2, 323-350. 


KNuTH, D. E. AND L. TRABB PARDO [1977]. “Early development of program- 
ming languages,” Encyclopedia of Computer Science and Technology 7, 
Marcel Dekker, New York, 419-493. 


Koreniak, A. J. [1969]. “A practical method for constructing LR(k) proces- 
sors,” Comm. ACM 12:11, 613-623. 


Kosarasu, S. R. [1974]. “Analysis of structured programs,” J. Computer and 
System Sciences 9:3, 232-255. 


Koskimies, K. anp K.-J. Rama [1983]. “Modelling of space-efficient one-pass 


translation using attribute grammars,” Soffware—Practice and Experience 
13, 119-129. 


Koster, C. H. A. [1971]. “Affix grammars,” in Peck {1971}, pp. 95-109. 


Kou, L. [1977]. “On live-dead analysis for global data flow problems,” J. 
ACM 24:3, 473-483. 


KRISTENSEN, B. B. anb O. L. Mapsen [1981]. “Methods for computing 
LALR(k) lookahead,” TOPLAS 3:1, 60-82. 


Kron, H. [1975]. Tree Templates and Subtree Transformational Grammars, Ph. 
D. Thesis, Univ. of California, Santa Cruz. 


LALoNDE，W. R. [1971]. “An efficient LALR parser generator,” Tech. Rep. 
2, Computer Systems Research Group, Univ. of Toronto. 


LaLonpe, W. R. [1976]. “On directly constructing LR(k) parsers without 
chain reductions,” Third ACM Symposium on Principles of Programming 
Languages, 127-133. 


LaLonpe, W. R., E. S. Lee, anp J. J. Hornig [1971]. “An LALR(k) parser 
generator,” Proc. IFIP Congress 71 TA-3, North-Holland, Amsterdam, 
153-157. 


Lams, D. A. [1981]. “Construction of a peephole optimizer,” Software— 


502 BE X hh 





Practice and Experience 11, 638-647. 


Lampson, B. W. (1982]. “Fast procedure calls,” ACM SIGPLAN Notices 17:4 
(April) 66-76. 


Lanoin, P. J. [1964]. “The mechanical evaluation of expressions,” Computer 
J. 6:4, 308-320. 


LECARME, O. and M.-C. PEYROLLE-THOMAS [1978]. ‘‘Self-compiling compilers: 
an appraisal of their implementation and portability,” Software—Practice 
and Experience 8, 149-170. 


Lepoarp, H. F. [1971]. “Ten mini-languages: a study of topical issues in pro- 
gramming languages,” Computing Surveys 3:3, 115-146. 


Leinius, R. P. [1970]. Error Detection and Recovery for Syntax Directed Com- 
piler Systems, Ph. D. Thesis, University of Wisconsin,. Madison. 


LENGAUER, T. AND R. E. Tarjan [1979]. “A fast algorithm for finding domi- 
nators in a flowgraph,” TOPLAS 1, 121-141. 


Lesk, M. E. [1975]. “Lex ~ a lexical analyzer generator,” Computing Science 
Technical Report 39, AT&T Bell Laboratories, Murray Hill, N. J. 


Leverett, B. W. [1982]. “Topics in code generation and register allocation,” 
CMU CS-82-130, Computer Science Dept., Carnegie-Mellon Univ., Pitts- 
burgh, Pennsylvania. 


Leverett, B. W., R. G. G. CATTELL, S. O. HoBss, J. M. Newcomer, A. H. 
Reiner, B. R. SCHATZ, anb W. A. WULF [1980]. “An overview of the 
production-quality compiler-compiler project," Computer 13:8, 38-40. 

Leverett, B. W. ano T. G. Szymanski [1980]. “Chaining span-dependent 
jump instructions,” TOPLAS 2:3, 274-289. 


Levy, J. P. [1975]. “Automatic correction of syntax errors in programming 
languages,” Acta Informatica 4, 271-292. 


Lewis, P. M., Il, D. J. ROSENKRANTZ, AND R. E. Stearns [1974]. “Attributed 
translations,” J. Computer and System Sciences 9:3, 279-307. 


Lewis, P. M., I, D. J. Rosenkrantz, AND R. E. Srearns [1976]. Compiler 
Design Theory, Addison-Wesley, Reading, Mass. 


Lewis, P. M., Ilano R. E. SrearNs [1968]. “Syntax-directed transduction,” J. 
ACM 15:3, 465-488. 


Loruo, B. {1977}. “Semantic attribute processing in the system Delta,” in 
Ershov and Koster [1977], pp. 21-40. 


Loruo, B. [1984]. Methods and Tools for Compiler Construction, Cambridge 
Univ. Press. 


Loruo, B. and C. Pair [1975]. “Algorithms for checking consistency of attri- 
bute grammars,” in Huet and Kahn [1975], pp. 29-54. 


Low, J. AND P. Rovner [1976]. “Techniques for the automatic selection of 
data structures,” Third ACM Symposium on Principles of Programming 
Languages, 58-67. 


Lowry, E. S. anp C. W. MEDLocK [1969]. “Object code optimization,” 
Comm. ACM 12, 13-22. 


Lucas, P, [1961]. “The structure of formula translators,” Elektronische 
Rechenanlagen 3, 159-166. 


Lunde, A. [1977]. “Empirical evaluation of some features of instruction set 
processor architectures,” Comm. ACM 20:3, 143-153. 


委 考 文献 503 





LuNELL, H. {1983]. Code Generator Writing Systems, Ph. D. Thesis, Linköping 
University, Linköping, Sweden. 


MacQueen, D. B., G. P. PLOTKIN, AnD R. SETHI [1984]. “An ideal model of 


recursive polymorphic types,’’ Eleventh Annual ACM Symposium on Princi- 
ples of Programming Languages, 165-174. 


Mapsen, O. L. [1980]. “On defining semantics by means of extended 
attribute grammars,” in Jones [1980], pp. 259-299. 


Marit, T. [1962]. “Computational chains and the simplification of computer 
programs,” IRE Trans. Electronic Computers EC-11:2, 173-180. 


MARTELLI, A. AND U. Montanari [1982]. “An efficient unification algo- 
rithm,” TOPLAS 4:2, 258-282. 


Mauney, J. anp C. N. Fischer [1982]. “A forward move algorithm for LL 
and LR parsers,” ACM SIGPLAN Notices 17:4, 79-87. 


Mayon, B. H. [1981]. ‘Attribute grammars and mathematical semantics,” 
SIAM J. Computing 10:3, 503-518. 


McCartny, J. [1963]. “Towards a mathematical science of computation,” 
Information Processing 1962, North-Holland, Amsterdam, 21-28. 


McCarthy, J. [1981]. “History of Lisp,” in Wexelblat [1981], pp. 173-185. 


McC ure, R. M. [1965]. “TMG - a syntax-directed compiler,” Proc. 20th 
ACM National Conf., 262-274. 


McCracken, N. J. [1979]. An Investigation of a Programming Language with a 
Polymorphic Type Structure, Ph. D. Thesis, Syracuse University, Syracuse, 
N. Y. 


McCvurLouoH, W. S. AND W. Prrrs [1943]. “A logical calculus of the ideas 
immanent in nervous activity,” Bulletin of Math. Biophysics 5, 115-133. 


McKeeman, W. M. [1965]. ‘‘Peephole optimization,” Comm. ACM 8:7, 443- 
444. 


McKeeman, W. M. [1976]. “Symbol table access,” in Bauer and Eickel 
[1976], pp. 253-301. 


McKeeman, W. M., J. J. Horninc, anp D. B. WoRTMAN [1970]. A Compiler 
Generator, Prentice-Hall, Englewood Cliffs, N. J. 


McNAUGHTON, R. AND H. Yamapa [1960]. “Regular expressions and state 
graphs for automata,” IRE Trans. on Electronic Computers EC-9:1, 38-47. 


Meertens, L. [1983]. ‘‘Incremental polymorphic type checking in B,” Tenth 
ACM Symposium on Principles of Programming Languages, 265-275. 


Metcatr, M. [1982]. Fortran Optimization, Academic Press, New York. 


Miller, R. E. AND J. W. THATCHER (EDS.) [1972]. Complexity of Computer 
Computations, Academic Press, New York. 


Miner, R. [1978]. “A theory of type polymorphism in programming,” J. 
Computer and System Sciences 17:3, 348-375. 


MiLNER, R. [1984]. “A proposal for standard ML,” ACM Symposium on Lisp 
and Functional Programming, 184-197. 


Minker, J. AND R. G. MINKER [1980]. “Optimization of boolean expressions — 
historical developments,” A. of the History of Computing 2:3, 227-238. 


MITCHELL, J. C. [1984]. “Coercion and type inference,” Eleventh ACM Sympo- 


504 


BA X ik 





sium on Principles of Programming Languages, 175-185. 


Moore, E. F. [1956}. “Gedanken experiments in sequential machines,” in 
Shannon and McCarthy [1956], pp. 129-153. 


MorEL, E. anp C. REnvoise [1979]. “Global optimization by suppression of 
partial redundancies,” Comm. ACM 22, 96-103. 


Morris, J. H. [1968a]. Lambda-Calculus Models of Programming Languages, 
Ph. D. Thesis, MIT, Cambridge, Mass. 


Morris, R. [1968b]. “Scatter storage techniques,” Comm. ACM 11:1, 38-43. 


Moses, J. [1970]. “The function of FUNCTION in Lisp,” SIGSAM Bulletin 15 
(July) 13-27. 


Mouton, P. G. anb M. E. Muiter [1967]. “DITRAN — a compiler 
emphasizing diagnostics,” Comm. ACM 10:1, 52-54. 


Mucunick, S. S. and N. D. Jones [1981]. Program Flow Analysis: Theory and 
Applications, Prentice-Hall, Englewood Cliffs, N. J. 


Nakata, I. [1967]. “On compiling algorithms for arithmetic expressions,” 
Comm. ACM 10:8, 492-494. 


Naur, P. (Ep.) [1963]. “Revised report on the algorithmic language Algol 
60,” Comm. ACM 6:1, 1-17. 


Naur, P. [1965]. ‘Checking of operand types in Algol compilers,” BIT §, 
151-163. 


Naur, P. [198i]. “The European side of the last phase of the development of 
Algol 60,” in Wexelblat [1981], pp. 92-139, 147-161. 


Newey, M. C., P. C. Poore, AND W. M. WAITE [1972]. “Abstract machine 
modelling to produce portable software — a review and evaluation,” 
Software—Practice and Experience 2:2, 107-136. 


Newey, M. C. AND W. M. Wane [1985]. “The robust implementation of 


sequence-controlled iteration,” Software—Practice and Experience 15:7, 
655-668. 


NicHoLLs, J. E. (1975]. The Structure and Design of Programming Languages, 
Addison-Wesley, Reading, Mass. 


NIEVERGELT, J. [1965]. “On the automatic simplification of computer code,” 
Comm. ACM 8:6, 366-370. 


Nori, K. V., U. AMMANN, K. Jensen, H. H. NAGELI, AND Cu. Jaconi [1981]. 
“Pascal P implementation notes,” in Barron [1981], pp. 125-170. 


Osrerwei, L. J. [1981]. “Using data flow tools in software engineering,” in 
Muchnick and Jones [1981], pp. 237-263. 


Pacer, D. [1977a]. “A practical general method for constructing LR(k) 
parsers,” Acta Informatica 7, 249-268. 


Pacer, D. {1977b]. “Eliminating unit productions from LR(&) parsers,” Acta 
Informatica 9, 31-59. 


Pal, A. B. anp R. B. Kiesurtz [1980]. “Global context recovery: a new stra- 


tegy for syntactic error recovery by table-driven parsers,” TOPLAS 2:1, 
18-41. 


Paice, R. anb J. T. Scuwartz [1977]. “Expression continuity and the formal 
differentiation of algorithms,” Fourth ACM Symposium on Principles of 
Programming Languages, 58-71. 


BBX tk l 505 





PALM, R. C., JR. [1975]. “A portable optimizer for the language C,” M. Sc. 
Thesis, MIT, Cambridge, Mass. 


Park, J. C. H., K. M. CHoE, anp C. H. CHANG [1985]. “A new analysis of 
LALR formalisms,” TOPLAS 7:1, 159-175. 


Paterson, M. S. ano M. WEGMAN [1978]. “Linear unification,” J. Computer 
and System Sciences 16:2, 158-167. 


Peck, J. E. L. [1971]. Algo! 68 Implementation, North-Holland, Amsterdam. 


PENNELLO, T. AND F. DEREMER [1978]. “A forward move algorithm for LR 
error recovery,” Fifth Annual ACM Symposium on Principles of Program- 
ming Languages, 241-254. 


PeNNELLO, T., F. DEREMER, AND R. Meyers [1980]. “A simplified operator 
identification scheme for Ada,” ACM SIGPLAN Notices 15:7 (July- 
August) 82-87. 


PerscH, G., G. WINTERSTEIN, M. DaussMANN, AND S. Drossoroutou [1980]. 


“Overloading in preliminary Ada,” ACM SIGPLAN Notices 15:11 
(November) 47-56. 


Peterson, W. W. [1957]. “Addressing for random access storage,” IBM J. 
Research and Development 1:2, 130-146. 


PoLLACK，B. W. [1972]. Compiler Techniques, Auerbach Publishers, Prince- 
ton, N. J. 


PoLLock, L. L. AND M. L. SoFFA [1985]. “Incremental compilation of locally 
optimized code,” Twelfth Annual ACM Symposium on Principles of Pro- 
gramming Languages, 152-164. 


PoweLL, M. L. [1984]. “A portable optimizing compiler for Modula-2,” ACM 
SIGPLAN Notices 19:6, 310-318. 


Pratt, T. W. [1984]. Programming Languages: Design and Implementation, 
2nd Ed., Prentice-Hall, Englewood Cliffs, N. J. 


Pratt, V. R. {1973}. “Top down operator precedence," ACM Symposium on 
Principles of Programming Languages, 41-51. 


Price, C. E. [1971]. “Table lookup techniques,” Computing Surveys 3:2, 49- 
65. 


Prosser, R. T. [1959]. "Applications of boolean matrices to the analysis of 
flow diagrams,” AFIPS Eastern Joint Computer Conf., Spartan Books, Bal- 
timore, Md., 133-138. 


Purpom, P. anb C. A. Brown [1980]. “Semantic routines and LR(k) 
parsers,” Acta Informatica 14:4, 299-315. 


Purpom, P. W. anp E. F. Moore {1972}. “Immediate predominators in a 
directed graph,” Comm. ACM 15:8, 777-778. 


Rapin, M. O. ann D. Scorr. [1959]. “Finite automata and their decision 
problems,” IBM J. Research and Development 3:2, 114-125. 


Rapin, G. and H. P. RoGoway [1965}. “NPL: Highlights of a new program- 
ming language,” Comm. ACM 8:1, 9-17. 


RAIHA, K.-J. (1981). A Space Management Technique for Multi-Pass Attribute 
Evaluators, Ph. D. Thesis, Report A-1981-4, Dept. of Computer Science, 
University of Helsinki. 


Raima, K.-J. AND M. Saarinen |1982). “Testing attribute grammars for circu- 
larity,” Acta Informatica 17, 185-192. 


506 BB ST hk 








Raina, K.-J., M. SAARINEN, M. SARJAKOSKI, S. Sipru, E. SoisALON-SOININEN, 
AND M. Tienart [1983]. “Revised report on the compiler writing system 
HLP78,” Report A-1983-1, Dept. of Computer Science, University of 
Helsinki. 


RANDELL, B. AND L. J. RusseLL {1964]. Algol 60 Implementation, Academic 
Press, New York. 


REDZIEJOwSKI，R. R. [1969]. “On arithmetic expressions and trees,” Comm. 
ACM 12:2, 81-84. 


Reir, J. H. ano H. R. Lewis [1977]. “Symbolic evaluation and the global 


value graph,” Fourth ACM Symposium on Principles of Programming 
Languages, 104-118. 


Reiss, S. P. [1983]. “Generation of compiler symbol processing mechanisms 
from specifications," TOPLAS 5:2, 127-163. 


Reps, T. W. [1984]. Generating Language-Based Environments, MIT Press, 
Cambridge, Mass. 


REYNOLDS, J. C. [1985]. “Three approaches to type structure,” Mathematical 
Foundations of Software Development, Lecture Notes in Computer Science 
185, Springer-Verlag, Berlin, 97-138. 


Ricuarps, M. [1971]. “The portability of the BCPL compiler,” Software— 
Practice and Experience 1:2, 135-146. 


Ricnarps, M. [1977]. “The implementation of the BCPL compiler,” in P. J. 
Brown (ed.), Software Portability; An Advanced Course, Cambridge 
University Press. 


Ripken, K. {1977]. “Formale beschreibun von maschinen, implementierungen 
und optimierender maschinen-codeerzeugung aus attributierten pro- 
grammgraphe,” TUM-INFO-7731, Institut fiir Informatik, Universitat 
Miinchen, Munich. 


RipLEY, G. D. anp F. C. Drusekis [1978]. “A statistical analysis of syntax 
errors,” Computer Languages 3, 227-240. 


RiTcHIE，D. M. {1979]. “A tour through the UNIX C compiler,” AT&T Bell 
Laboratories, Murray Hill, N. J. 


RircHIE，D. M. AND K. THoMPsON [1974]. “The UNIX time-sharing system,” 
Comm. ACM 17:7, 365-375. 


Ropertson, E. L. [1979]. “Code generation and storage allocation for 
machines with span-dependent instructions,” TOPLAS 1:1, 71-83. 


Rosinson, J. A. [1965]. “A machine-oriented logic based on the resolution 
principle,” J. ACM 12:1, 23-41. 


Rout, J. S. [1975]. An Introduction to Compiler Writing, American Elsevier, 
New York. 


RoHRICH, J. [1980]. “Methods for the automatic construction of error correct- 
ing parsers,” Acta Informatica 13:2, 115-139. 


Rosen, B. K. [1977]. “High-level data flow analysis,” Comm. ACM 20, 712- 
724. 


Rosen, B. K. [1980]. “Monoids for rapid data flow analysis,” SIAM J. Com- 
puting 9:1, 159-196. 


Rosen, S. [1967]. Programming Systems and Languages, McGraw-Hill, New 
York. 


BH SX tk 


507 





ROSENKRANTZ, D. J. anp R. E. STEARNS {1970}. “Properties of deterministic 
top-down grammars,” /nformation and Control 17:3, 226-256. 


Roster, L. [1984]. “The evolution of C — past and future,” AT&T Bell Labs 
Technical Journal 63:8, 1685-1699. 


Rustin, R. [1972]. Design and Optimization of Compilers, Prentice-Hall, 
Englewood Cliffs, N.J. 


Ryper, B. G. [1979]. ‘‘Constructing the call graph of a program,” IEEE 
Trans. Software Engineering SE-5;3, 216-226. 


Ryper, B. G. [1983]. “Incremental data flow analysis,” Tenth ACM Sympo- 
_ sium on Principles of Programming Languages, 167-176. 


Saarinen, M. [1978]. “On constructing efficient evaluators for attribute 
grammars,” Automata, Languages and Programming, Fifth Colloquium, 
Lecture Notes in Computer Science 62, Springer-Verlag, Berlin, 382-397. 


SaMELSON, K. anp F. L. Bauer [1960]. “Sequential formula translation,” 
Comm. ACM 3:2, 76-83. 


SANKOFF, D. and J. B. KRUSKAL (EDS.) [1983]. Time Warps, String Edits, and 
Macromotecules: The Theory and Practice of Sequence Comparison, 
Addison-Wesley, Reading, Mass. 


Scarsoroucn, R. G. AND H. G. KorskY [1980]. “Improved optimization of 
Fortran object programs,” IBM J. Research and Development 24:6, 660- 
676. 


SCHAEFER, M. [1973]. A Mathematical Theory of Global Program Optimization, 
Prentice Hall, Englewood Cliffs, N. J. 


SCHONBERG, E., J. T. SCHWARTZ, AND M. SHARIR [1981]. “An automatic tech- 
nique for selection of data representations in SETL Programs,” TOPLAS 
3:2, 126-143. 


ScHorRE, D. V. [1964]. “Meta-ll: a syntax-oriented compiler writing 
language,” Proc. 19th ACM National Conf., D1.3-1 - D1.3-11. 


Scuwartz, J. T, [1973]. On Programming: An Interim Report on the SETL Pro- 
ject, Courant Inst., New York. 


Scuwartz, J. T. (1975a]. ‘Automatic data structure choice in a language of 
very high level,” Comm. ACM 18:12, 722-728. 


Scuwartz, J. T. [1975b]. ‘Optimization of very high level languages,” Com- 
puter Languages. Part 1: ‘‘Value transmission and its corollaries,” 1:2, 
161-194; part II: “Deducing relationships of inclusion and membership,” 
1:3, 197-218. 


SEDGEWICK, R. [1978]. “Implementing Quicksort programs,” Comm. ACM 21, 
847-857. 


Sethi, R. {1975}. “Complete register allocation problems,” SIAM J. Comput- 
ing 4:3, 226-248. 


Sethi, R. anD J. D. ULLMAN [1970]. “The generation of optimal code for 
arithmetic expressions,” J. ACM 17:4, 715-728. 


SHANNON, C. AND J. McCartuy [1956]. Automata Studies, Princeton University 
Press. 


SHERIDAN, P. B. [1959]. “The arithmetic translator-compiler of the IBM For- 
tran automatic coding system,” Comm. ACM 2:2, 9-21. 


508 KAT a 


SHIMASAKI, M., S. Fukaya, K. IKEDA, AND T. KIYONO [1980]. ‘An analysis of 
Pascal programs in compiler writing,” Software—Practice and Experience 
10:2, 149-157. 


Suustek, L. J. [1978]. “Analysis and performance of computer instruction 
sets,” SLAC Report 205, Stanford Linear Accelerator Center, Stanford 
University, Stanford, California. 


Sippu, S. [1981]. “Syntax error handling in compilers,” Rep. A-1981-i, Dept. 
of Computer Science, Univ. of Helsinki, Helsinki, Finland. 


Sippu, S. AND E. SolsALON-SOININEN [1983]. “A syntax-error-handling tech- 
nique and its experimental analysis,” TOPLAS 5:4, 656-679. 


SOISALON-SOININEN, E. [1980]. “On the space optimizing effect of eliminating 
single productions from LR parsers,” Acta Informatica 14, 157-174. 


SOISALON-SOININEN, E. AND E. UKKONEN [1979]. “A method for transforming 
grammars into LL(k) form,” Acta Informatica 12, 339-369. 


SPILLMAN, T. C. [1971]. “Exposing side effects in a PL/I optimizing com- 
piler,” Information Processing 71, North-Holland, Amsterdam, 376-381. 


STEARNS, R. E. [1971]. “Deterministic top-down parsing,” Proc. Sth Annual 
Princeton Conf. on Information Sciences and Systems, 182-188. 


STEEL, T. B., Jr. [1961]. “A first version of Uncol， Western Joint Computer 
Conference, 371-378. 


STEELE, G. L., Jr. [1984]. Common LISP, Digital Press, Burlington, Mass. 


Srocknausen, P. F. [1973]. “Adapting optimal code generation for arithmetic 
expressions to the instruction sets available on present-day computers,” 
Comm. ACM 16:6, 353-354. Errata: 17:10 (1974) 591. 


STONEBRAKER, M., E. Wona, P. Kreps, AnD G. HELD [1976]. ‘The design and 
implementation of INGRES,” ACM Trans. Database Systems 1:3, 189-222. 


STRONG, J., J. WEGSTEIN, A. TRITTER, J. OLszTYN, O. Mock, AND T. STEEL 
[1958]. ‘The problem of programming communication with changing 
machines: a proposed solution,” Comm. ACM 1:8 (August) 12-18. Part 2: 
1:9 (September) 9-15. Report of the Share Ad-Hoc committee on Univer- 
sal Languages. l 


Stroustrup, B. [1986]. The C++ Programming Language, Addison-Wesley, 
Reading, Mass. 


Suzuki, N. [1981]. “Inferring types in Smalltalk,” Eighth ACM Symposium on 
Principles of Programming Languages, 187-199. 


Suzuki, N. anD K. IsHiHATA [1977}. “Implementation of array bound 
checker,” Fourth ACM Symposium on Principles of Programming 
Languages, 132-143. 


Szymanski, T. G. {1978]. “Assembling code for machines with span- 
dependent instructions,” Comm. ACM 21:4, 300-308. 


Tai, K. C. [1978]. “Syntactic error correction in programming languages,” 
IEEE Trans. Software Engineering SE-4:5, 414-425. 


TANENBAUM, A. S., H. vAN Sraveren, E. G. KEIZER, AND J. W. STEVENSON 


[1983]. “A practical tool kit for making portable compilers,” Comm. 
ACM 26:9, 654-660. 


TANENBAUM, A. S., H. van STAVEREN, AND J. W. Stevenson [1982]. “Using 
peephole optimization on intermediate code,” TOPLAS 4:1, 21-36. 


KET B 509 





TANTZEN, R. G. [1963]. “Algorithm 199: Conversions between calendar date 
and Julian day number,” Comm. ACM 6:8, 443. 


Taruio, J. [1982]. ‘Attribute evaluation during LR parsing,” Report A- 
1982-4, Dept. of Computer Science, University of Helsinki. 


Tarian, R. E. [1974a]. “Finding dominators in directed graphs,” SIAM J. 
Computing 3:1, 62-89. 


Tarian, R. E. [1974b]. “Testing flow graph reducibility,” J. Computer and 
System Sciences 9:3, 355-365. 


Tarjan, R. E. [1975]. “Efficiency of a good but not linear set union algo- 
rithm,” JACM 22:2, 215-225. 


Tarjan, R. E. [1981]. “A unified approach to path problems,” J. ACM 28:3, 
577-593. And “Fast algorithms for solving path problems,” J. ACM 28:3 
594-614, 


Tarjan, R. E. anp A. C. Yao [1979]. “Storing a sparse tabie,” Comm. ACM 
22:11, 606-611. 

TENNENBAUM, A. M. [1974]. “Type determination in very high level 
languages,” NSO-3, Courant Institute of Math. Sciences, New York 
Univ. 


TENNENT, R. D. [1981]. Principles of Programming Languages, Prentice-Hall 
International, Engiewood Cliffs, N. J. 


THompson, K. {1968}. “Regular expression search algorithm,” Comm. ACM 
11:6, 419-422. 


Tanc, S$. W. K. [1986]. ‘Twig language manual,” Computing Science 
Technical Report 120, AT&T Bell Laboratories, Murray Hill, N. J. 


Toxuna, T. [1981]. “Eliminating unit reductions from LR(k) parsers using 
minimum contexts,” Acta Informatica 15, 447-470. 


TrickEy, H. W. [1985]. Compiling Pascal Programs into Silicon, Ph. D. 
Thesis, Stanford Univ. 


ULLMAN, J. D. [1973]. “East algorithms for the elimination of common subex- 
pressions,” Acta Informatica 2, 191-213. 


ULLMAN, J. D. [1982]. Principles of Database Systems, 2nd Ed., Computer 
Science Press, Rockville, Md. 


Utiman, J. D. [1984]. Computational Aspects of VLSI, Computer Science 
Press, Rockville, Md. 


Vyssorsky, V. AND P. WEGNER [1963]. “A graph theoretical Fortran source 


language analyzer,” manuscript, AT&T Bell Laboratories, Murray Hill, 
N. J. 


WaGNER, R. A. [1974]. “Order-n correction for regular languages,” Comm. 
ACM 16:5, 265-268. 


Wacner, R. A. anD M. J. Fiscuer [1974]. “The string-to-string correction 
problem,” J. ACM 21:1, 168-174. 


Waite, W. M. [1976a]. “Code generation,” in Bauer and Eickel [1976), 302- 
332. 


Warme, W. M. [1976b]. “Optimization,” in Bauer and Eickel [1976], 549-602. 


Warre, W. M. ann L. R. Carter [1985]. “The cost of a generated parser,” 
Software—Practice and Experience 15:3, 221-237. 


510 BA TX bh 





WasiLew, S. G. [1971]. A Compiler Writing System with Optimization Capabili- 
ties for Complex Order Structures, Ph. D. Thesis, Northwestern Univ., 
Evanston, Ill. 


Watt, D. A. [1977]. “The parsing problem for affix grammars,” Acta Infor- 
matica 8, 1-20. 


WEGBREIT，B. [1974]. “The treatment of data types in EL1,” Comm. ACM 
17:5, 251-264. 


Wecpreit, B. {1975}. “Property extraction in well-founded property sets,” 
IEEE Trans. on Software Engineering 1:3, 270-285. 


Weoman, M. N. [1983]. ‘Summarizing graphs by regular expressions,” Tenth 
Annual ACM Symposium on Principles of Programming Languages, 203- 
216. 


Weoman, M. N. AND F. K. Zapeck [1985]. ‘Constant propagation with con- 
ditional branches,” Twelfth Annual ACM Symposium on Principles of 
Programming Languages, 291-299. 


WEGSsTEIN, J. H. [1981]. “Notes on Algo! 60,” in Wexelblat [1981], pp. 126- 
127. 


WemL, W. E. [1980]. “Interprocedural data flow analysis in the presence of 
pointers, procedure variables, and label variables,” Seventh Annual ACM 
Symposium on Principles of Programming Languages, 83-94. 


WEINGART, S. W. [1973]. An Efficient and Systematic Method of Code Genera- 
tion, Ph. D. Thesis, Yale University, New Haven, Connecticut. 


WeLsH, J., W. J. SNEERINGER, AND C. A. R. Hoare [1977]. “Ambiguities and 
insecurities in Pascal,” Software—Practice and Experience 1:6, 685-696. 


WEXELBLAT, R. L. [1981]. History of Programming Languages, Academic 
Press, New York. 


Wirth, N. [1968]. “PL 360 — a programming language for the 360 comput- 
ers,” J. ACM 15:1, 37-74. 


Wirth, N. [1971}. “The design of a Pascal compiler,” Software—Practice and 
Experience 1:4, 309-333. 


WirTH, N. [1981]. “Pascal-S: A subset and its implementation,” in Barron 
[1981], pp. 199-259. 


WirTH, N. ano H. Weser [1966]. “Euler: a generalization of Algol and its 
formal definition: Part 1,” Comm. ACM 9:1, 13-23. 


Woop, D. [1969]. “The theory of left factored languages,” Computer J. 
12:4, 349-356, 


Wutr, W. A., R. K. Jounsson, C. B. Weinstock, S. O. Hoses, anb C. M. 


GESCHKE [1975]. The Design of an Optimizing Compiler, American 
Elsevier, New York. 


YANNAKAKIS, M. [1985]. private communication. 


Youncer, D. H. [1967]. “Recognition and parsing of context-free languages 
in time n3," Information and Control 10:2, 189-208. 


ZELKOWITZ, M. V. anb W. G. Bait [1974]. ‘Optimization of structured pro- 
grams,” Software—Practice and Experience &:1, 51-57. 


索 


5| 


索引 中 的 页 码 为 英文 原 书页 码 ， 与 书 中 页 边 标注 的 页 码 一 致 。 


A 


Abel, N.E., 718 

Abelson, H., 462 

Absolute machine code ( 绝对 机 器 代码 )，5，19，54~515 

Abstract machine ( 抽象 机 )，62~63。 另 见 Stack machine 

Abstract syntax tree ( 抽象 语法 树 )，49。 另 匈 Syntax tree 

Acceptance ( 接受 )，115~116，199 

Accepting state (接受 状态 )，114 

Access link (访问 链 )，398，416~420，423 

Ackley, S.L, 157 

Action table ( 动作 表 ), 216 

Activation ( 活动 )，389 

Activation environment ( 活动 环境 )，457~458 

Activation record ( 活动 记录 ), 398~410, 522~527 

Activation tree ( 活动 树 )，391~393 

Actual parameter ( 实 参 )，390，399 

Acyclic graph (无 环 图 )， 另 见 Directed acyclic graph 

Ada，343，361，363~364，366~367，411 

Address descriptor ( 地 址 描述 符 ), 537 

Address mode ( 地 址 模式 ) 18~19, 519~521, 579~580 

Adjacency list ( 邻接 表 )，114~115 

Adrion, W.R., 722 

Advancing edge ( 前进 边 )，663 

Affix grammar :词缀 文法 ), 341 

Aho, A. V., 158, 181, 204, 277~278, 292, 392, 
444~445, 462, 566, 572, 583~584, 587, 721 

Aigtain, P., 584 

Algebraic transformation (代数 变换 )，532，557，566， 
600~602, 739 . 

Algol 24, 80, 82, 157, 277, 428, 461, 512, 561 

Algol 68, 86 

Algol-68, 21, 386, 512 

Alias (344 ), 648~660, 721 

Alignment, of data( 数据 对 齐 ), 399~400, 473 

Allen, F. E., 718~721 

Alphabet ( 字母 表 )，92 

Alternative ( 候选 式 )，167 

Ambiguity (二 义 性 )，30，171，174~175，184， 
191~192, 201~202, 229~230, 247~254, 261~264, 
578 

Ambiguous definition ( 含糊 定义 )，610 

Ammann, U., 82, 511, 583, 728~729, 734~735 


Analysis ( 分 析 )，2~10。 另 见 Lexical analysis, Parsing 

Anderson, J. P., 583 

Anderson, T., 278 

Anklam, P., 719 

Annotated parse tree ( 注释 分 析 树 ), 34, 280 

APL, 3, 387, 411, 694 

Arden, B. W., 462 

Arithmetic operator ( 算术 运算 符 )，361 

Array ( 数组 )，345，349，427 

Array reference ( 数组 引用 )，202，467，481~485， 
552~553, 582, 588, 649 

ASCII, 59 

Assembly code (汇编 代码 ), 4~5, 15, 17~19, 89, 515, 
519 

Assignment statement ( 赋值 语句 ), 65, 467, 478~488 

Associativity (47 SU), 30, 32, 95~96, 207, 
247~249, 263~264, 684 

Attribute (HE), 11, 33, 87, 260, 280. BM 
Inherited attribute, Lexical Value, Syntax-directed 
definition, Synthesized attribute 

Attribute grammar ( RTE XT: ), 280, 580 

Augmented dependency graph ( 扩充 依赖 图 )，334 

Augmented grammar (447° CHE), 222 

Auslander, M. A., 546, 583, 719 。 

Automatic code generator ( 自动 代码 生成 器 )，23 

Available expression ( 可 用 表达 式 )，627~631，659~660， 
684, 694 


AWK 83, 158, 724 
B 


Back edge ( [5131 ), 604, 606, 664 

Back end ( Ja), 20, 62 

Backhouse, R.C., 278, 722 

Backpatching ( IEE), 21, 500~506, 515 

Backtracking ( FIA), 181~182 

Backus, J. W., 2, 82, 157, 386 

Backus-Naur form ( Backus-Naur 范 式 )， 见 BNF 

Backward data-flow equations ( 后 向 数据 流 方程 )，624， 
699~702 

Bail, W.G., 719 

Baker, B. S., 720 

Baker, T. P., 387 


512 


Banning, J., 721 

Barron, D. W., 82 

Barth, J.M., 721 

Basic block ( HAR), 528~533, 591, 598-602, 609, 
704, 5 WLExtended basic block 

Basic induction variable ( 基本 归纳 变量 ), 643 

Basic symbol ( 基本 符号 )，95，122 

Basic type (基本 类 型 )，345 

Bauer, A. M., 387 

Bauer, F. L., 82, 340, 386 

BCPL, 511, 583 

Beatty, J. C., 583 

Beeber, R.J., 2 

Begriffsschrift, 462 

Belady, L.A., 583 

Bell, J.R., 718 

Bentley, J.L., 360, 462, 587 

Best, S., 2 

Binary alphabet ( 二进制 字母 表 )，92 

Binding, of names (名字 的 绑 定 )，395~396 

Birman, A., 277 

Bliss, 489, 542, 561, 583, 607, 718~719, 740~742 

Block (38 ), W Basic block, Block structure, Common 
block 

Block structure ( ER44#9 ), 412, 438~440 

BNF, 25, 82, 159, 277 

Bochmann, G. V., 341 

Body (4%), W Procedure body 

Boolean expression (布尔 表达 式 ), 326~328, 488~497, 
501~503 

Bootstrapping ( 自 举 ), 725~729 

Bottom-up parsing ( 自 底 向 上 语法 分 析 ), 41, 195, 290, 
293~296, 308~316, 463, 57 5LLR parsing, Operator 
precedence parsing, Shift-reduce parsing 

Bounded context parsing ( 有 界 上 下 文 语 法 分 析 )，277 

Boyer, R.S., 158 

Branch optimization (分 支 优化 ), 740, 742 

Branquart, P., 342, 512 

Branstad, M.A., 722 

Bratman, H., 725 

Break statment ( break 语句 )，621~623 

Brooker, R. A., 340 

Brooks, F.p., 725 

Brosgol, B. M., 341 

Brown, C.A., 341 

Bruno, J.L., 566, 584 

Bucket (#8), 434. 54 Hashing 

Buffer (缓冲 区 ), 57, 62, 88~92, 129 

Burstall, R. M., 385 

Busam, V.A., 718 

Byte (47), 399 


C 


C, 52, 104~105, 162~163, 326, 358~359, 364, 366, 
396~398, 411, 414, 424, 442, 473, 482, 510, 
542, 561, 589, 696, 725, 735~737 

Call ( 调用 )， 见 Procedure call 

Call-by-address ( 传 址 方式 )， 见 Call-by-reference 

Call-by-location ( 传 位 置 方式 )， 见 Call-by-reference 

Call-by-name ( 传 名 方式 )，428~429 

Call-by-reference ( 引用 方式 )，426 

Call-by-value ( 传 值 方式 )，424~426 428~429 

Calling sequence ( 调用 序列 ), 404~408, 507~508 

Canonical collection of sets of items (项 目 集 规范 族 )， 
222, 224, 230~232 

Canonical derivation ( 规范 推导 ), 169 

Canonical LR parsing (规范 LR 语法 分 析 法 )，230~236 ， 
254 

Canonical LR parsing table (规范 LR 语法 分 析 表 )， 
230~236 

Cardelli, L., 387 

Cardinael, J.-P., 342, 512 

Carter, J.L., 718, 731 

Carter, L. R, 583 

Cartesian product ( H -FJLÆH ), 345~346 

Cartwright, R., 388 

Case statement ( case 语 句 ), 497~500 

Cattell, R. G. G., 511, 584 

CDC, 6600 584 

CFG, ， 见 Context-free grammar 

Chaitin, G.J., 546, 583 

Chandra, A. K., 546, 583 

Chang, C. H., 278 

Changed variable ( 变化 变量 )，657~660 

Character class ( 字符 类 )，92，97，148。 另 见 Alphabet 

Cherniavsky, J.C., 720, 722 

Cherry, L.L., 9, 158, 252, 733 

Child (FPA), 29 

Choe, K.M., 278 

Chomsky, N., 81 

Chomsky normal form (Chomsky 范 式 )，276 

Chow, F, 583, 719, 721 

Church, A., 387, 462 

Ciesinger, J., 278 

Circular syntax-directed definition ( 环形 语法 制导 定义 )， 
287, 334~336, 340, 342 

Cleveland, W.S., 462 

Closure (Hf), 93~96, 123 

Closure, of set of items (HAMA ), 222~223, 225, 
231~232 

CNF, WChomsky normal form 

Cobol, 731 

Cocke, J., 160, 277, 546, 583, 718~721 


索引 


513 





Cocke-Younger- Kasami algorithm (Cocke-Younger- 
Kasami 算 法 )，160，277 

Code generation ( 代 公 生成 )，15，513~584，736~737 

Code hoisting (代码 提升 )，714 

Code motion (代码 外 提 )，596，638~643，710~711， 
721, 742~743 

Code optimization ( Fi 1b), 14~15, 463, 472, 480, 
513, 530, 554~557, 585~722, 738~740 

Coercion ( 强制 类 型 转换 ), 344, 359~360, 387 

Coffman, E.G., 584 

Cohen, R., 341 

Coloring ( 染色 )， 见 Graph coloring 

Column-major form ( 列 优先 形式 )，481~482 

Comment (注释 )，84~85 

Common block ( 公共 块 )，432，446~448 454~455 

Common Lisp 462 

Common subexpression ( 公共 子 表 达 式 )，290，531， 
546, 551, 566, 592~595, 599-600, 633~636, 709, 
739~741, 743, ‘A UiAvailable expression 

Commutativity ( 交换 性 )，96，684 

Compaction，of storage ( 存储 压缩 )，446 

Compilercompiler ( 编译 器 的 编译 器 )，22 

Composition 〈 合成 )，684 

Compression〈 压 缩 )， 见 Encoding of types 

Concatenation (连接 )，34~35，92~96，123 

Concrete syntax tree ( 具体 语法 树 )，49。 另 见 Syntax tree 

Condition code ( 条 件 码 )，541 

Conditional expression (条 件 表达 式 )， 见 Boolean 
expression 

Configuration (格局 )，217 

Conflict ( 冲突 )， 见 Disambiguation rule, Reduce/reduce 
conflict, Shift/reduce conflict 

( 聚合 运算 符 )，624，680，695 

Congruence closure ( 全 等 闭 包 )， 见 Congruent nodes 

Congruent nodes ( 全 等 节点 )，385，388 

Conservative approximation ( 保守 近似 )，611，614~615， 
630, 652~654, 659~660, 689~690 

Constant folding ( WEAH ), 592, 595, 601, 681~685, 
687~688 

Context-free grammar ( 上下文 无 关 文 法 )，25~30， 
40~41，81~82，165~181，280。 另 见 LL grammar, 
LR grammar, Operator grammar 

Context-free language ( f FP MUMKib A), 168, 
172~173, 179~181 

Contiguous evaluation ( 邻近 计算 ), 569~570 

Control flow (#4 Ft), 66~67, 468~470, 488~506, 
556~557, 606, 611, 621, 689~690, 720 

Control link (HIE), 398, 406~409, 423 

Control stack ( 控制 栈 ), 393~394, 396 

Conway, M.E., 277 

Conway, R. W., 164, 278 


Confluence operator 


Copy propagation ( 复制 传播 )，592，594~595，636~638 

Copy rule (SHUM), 322~323, 325, 428~429 

Copy statement ( 复制 语句 )，467，551，594 

Copy-restore-linkage ( 复制 -恢复 连接 ), 427 

Corasick, M. J., 158 

Core, of set of items ( 项 目 集 的 核心 )，237 

Cormack, G. V., 158, 387 

Courcelle, B., 341 

Cousot, P., 720 

Cousot, R., 720 

CPL, 387 

Cross compiler ( 交叉 编译 器 )，726 

Cross edge《 交叉 边 )，663 

Curry, H.B., 387 

Cuter, D., 719 

Cycle (循环 )，177 

Cycle, ‘in type graphs ( 类 型 图 中 的 环 )，358~359 

Cycle-free grammar ( 无 环 的 文法 )，270 

CYK algorithm ( CYK 算 法 )， 见 Cocke-Younger-Kasami 
algorithm 


D 


DAG, Directed acyclic graph 

Dangling else ( 悬空 else )，174~175，191，201~202， 
249~251, 263, 268 

Dangling reference (&2551F), 409, 442 

Data area ( 数据 区 ), 446, 454~455 

Data layout ( 数据 布局 ), 399, 473~474 

Data object ( 数据 对 象 )， 见 Object 

DATA statement ( DATA 语 句 )，402~403 

Data-flow analysis ( 数据 流 分 析 ), 586, 608~722 

Data-flow analysis framework ( 数据 流 分 析 框 架 )， 
681~694 

Data-flow engine ( 数据 流 引 敬 )，23，690~694 


Data-flow equation ( 数据 流 方程 )，608，624，680 
Date, C.J., 4 

Daussmann, M., 387 

Davidson, J. W, 511, 584 

Dead code ( FGRI{RM ), 531, 555, 592, 595 
Debugger ( 调试 器 )，406 

Debugging (调试 )，555。 另 见 Symbolic debugging 
Declaration〈( 声明 ), 269, 394~395, 473~478, 510 
Decoration (装饰 )， 见 Annotated parse tree 

Deep access ( 深 访问 )，423 

Default value (RRUMA ), 497~498 

Definition (72%), 529, 610, 632 

Definition-use chain ( 定义 -引用 链 )， 见 Du-chain 
Delescaille, J.-P, 342, 512 

Deletion, of locals ( 局 部 变量 删除 )，404 
DELTA，341 

Demers, A.J., 278 


514 





Dencker, P., 158 

Denotational semantics ( 指称 诸 义 学 )，340 

Dependency graph (依赖 图 )，279~280，284~287 ， 
331~334 

Depth, of a flow graph ( 流 图 的 深度 )，664 ，672~673 ， 
716 

Depth-first ordering ( 深度 优先 排序 ), 296, 661, 
671~673 

Depth-first search ( 深度 优先 搜索 )，660~664 

Depth-first spanning tree ( 深度 优先 生成 树 )，662 


Depth-first traversal 深度 优先 遍历 )，36~37，324~325， 
393 


Deransart, P., 342 

DeRemer, F., 278, 387 

Derivation (HE ), 29, 167~171 

Despeyroux, T., 388 

Deterministic finite automaton ( 确定 的 有 穷 自 动机 )，113， 
115~121, 127~128, 132~136, 141~146, 150, 
180~181, 217, 222, 224~226 

Deterministic transition diagram (确定 的 状态 转换 图 )， 
100 

PFA， 见 Deterministic finite automaton 

Diagnostic 〈 诊断 的 )， 见 Error message ‘ 

Directed acyclic graph ( 无 环 有 向 图 )，290~293 347, 
464~466, 471, 546~554, 558~561, 582, 584, 
598~602, 606, 705~708 

Disambiguating rule ( 消除 二 义 性 规则 ), 171, 175, 
247~254, 261~264 

Disambiguation ( 消除 二 义 性 ), 387. 54 WOverloading 

Display (display 表 ), 420~422 

Distance, between strings ( 字符 串 间 的 距离 )，155 

Distributive framework ( 分 配 性 框架 ), 686~688, 692 

Distributivity ( 分 配 性 )，720 

Ditzel, D., 583 

Do statement ( do 语句 ), 86, 111~112 

Dominator ( ZAA ), 602, 639, 670~671, 721 

Dominator tree ( 支配 树 )，602 

Downey, P.J., 388, 584 

Drossopoulou, S., 387 

Druseikis, F. C., 162 

Du-chain ( du##), 632~633, 643 

Dummy argument (ME3E 70), iL Formal parameter 

Durre, K., 158 

Dynamic allocation ( 动态 存储 分 配 )，401，440~446 

Dynamic checking ( 动态 检查 )，343，347 

Dynamic programming ( 动态 程序 设计 )，277，567~572， 
584 

Dynamic scope ( 动态 作用 域 )，411 ，422~423 


E 


Earley, J., 181, 277~278, 721 


Earley’s algorithm ( Earley 算 法 )，160，277 

EBCDIC, 59 

Edit distance ( 编辑 距离 )，156 

Efficiency (334), 85, 89, 126~128, 144~146, 152, 
240~244, 279, 360, 388, 433, 435~438, 451, 
516, 618~620, 724 
另 见 Code optimization 

Egrep, 158 

EL!, 387 

Elshoff, J. L., 583 

Emitter ( 输出 程序 )，67~68 ，72 

Empty set (4343), 92 

Empty string (ZFP ), 27, 46, 92, 94, 96 

Encoding of types ( 类 型 编码 )，354~355 

Engelfriet, J., 341 

Englund, D. E., 718 

Entry, toaloop (循环 人 口 )，534 

Environment (环境 )，395 ，457~458 

e-closure (< 闭 包 ), 118~119, 225 

€ -free grammar (无 E 文 法 )，270 

€ -production (产生 式 )，177，189，270 

€-transition ( € #2), 114-115, 134 

EQN, 9~10, 252~254, 300, 723~724, 726, 733~734 

Equel, 16 

Equivalence, of basic blocks ( 基本 块 的 等 价 )，530 

Equivalence, of finite automata ( 有 穷 自动 机 的 等 价 )， 
388 

Equivalence, of grammars ( 文法 的 等 价 )，168 

Equivalence, of regular expressions ( 正规 表达 式 的 等 价 )， 
95, 150 

Equivalence, of syntax-directed definitions ( 语法 制导 定 
义 的 等 价 )，302~305 

Equivalence, of type expressions ( 类 型 表达 式 的 等 价 )， 
352~359。 另 见 Unification 

Equivalence statement ( 等 价 语句 )，432，448~455 

Equivalence, under a substitution ( 代 换 下 等 价 )，371 ， 
377~379 

Error handling ( 出 错 处 理 ), 11, 72~73, 88, 161~162 
Lexical error, Logical error, Semantic error, 
Syntax error 

Error message ( 错误 信息 )，194，211~215，256~257 

Error productions ( 出 错 产 生 式 )，164~165，264~266 

Ershov, A. P., 341, 583, 718 

Escape character ( Escape ¥ # ), 110 

Evaluation order, for basic blocks ( 基本 块 的 计算 顺序 ), 
518, 558~561 

Evaluation order, for syntax-directed definitions ( 语法 制 
导 定 文 的 计算 顺序 )，285~287，298~ 299, 316~336 

Evaluation order, for trees ( 树 的 计算 顺序 )，561~580 

Eve, J., 278 

Explicit allocation ( 显 式 存储 分 配 ), 440, 443~444 


x al 


515 





Explicit type conversion ( 显 式 类 型 转换 ), 359 

Expression ( RR ), 6~7, 31~32, 166, 290~293, 
350~351。 另 见 Postfix expression 

Extended basic block ( 扩展 基本 块 )，714 

External reference ( 外 部 引用 )，19 


F 


Fabri, J., 718 

Failure function ( 失败 函数 )，151，154 

Family, of an induction variable ( 归纳 变量 族 )，644 

Fang, 1., 341 

Farrow, R., 341~342 

Feasible type ( 可 行 的 类 型 )，363 

Feldman, S.I., 157, 511, 729 

Ferrante, J., 718 

Feys, R., 387 

Fgrep, 158 

Fibonacci string ( Fibonacci 串 ), 153 

Field, of a record ( 记录 的 域 )，477~478，488 

Final state ( 终 态 )， 见 Accepting state 

Find ( find 操作 ), 378~379 

Finite automaton 〈 有 穷 自动 机 )，113~144。 另 兄 
Transition diagram 

FIRST, 45~46, 188~190, 193 

Firstpos, 135, 137~140 

Fischer, C.N., 278, 583~584 

Fischer, M.J., 158, 462 

Fleck, A.C., 428 

Flow graph ( WE ), 528, 532~534, 547, 591, 602. 
另 见 Reducible flow graph 

Flow of control ( 控制 流 )，529。 另 见 Control flow 

Flow-of-control check ( 控制 流 检查 )，343 

Floyd, R.W., 277, 584 

FOLDS, 341 

FOLLOW, 188~190, 193, 230~231 

Followpos, 135, 137~140 

Fong, A.C., 721 

Formal parameter ( 形 参 )，390 

Fortran 2, 86, 111~113, 157, 208, 386, 396, 
401~403, 427, 432, 446~455, 481, 602, 718, 
723 

FortranH, 542, 583, 727~728, 737~740 

Forward data-flow equations ( 前 向 数据 流 方程 )，624， 
698~702 

Forward edge ( 前 向 边 )，606 

Fosdick, L. D., 722 

Foster, J. M., 82, 277 

Fragmentation ( 碎片 )，443~444 

Frame ($), Activation record 

Fraser, C. W., 511~512, 584 

Fredman, M., 158 


Frege, G., 462 

Freiburghouse, R. A., 512, 583 

Freudenberger, S.M., 719, 722 

Front end ( 前端 )，20，62 

Fukuya, S., 583 

Function ( K% ), W Procedure 

Function type ( 函数 类 型 )，346~347，352，361~364。 
另 见 Polymorphic function 


G 


GAG, 341~342 

Gajewska, H., 721 

Galler, B. A., 462 

Ganapathi, M., 583~584 

Gannon, J.D., 163 

Ganzinger, H., 341, 387 

Garbage collection ( 垃圾 收集 )，441~442 

Garey, M.R., 584 

Gear, C. W., 720 

Gen, 608, 612~614, 627, 636 

Generation, ofa string ( 捉 的 生成 )，29 

Generic function ( 类 属 函 数 )，364。 另 见 Polymorphic 
function 

Geschke, C. M., 489, 543, 583, 718~719, 740 

Giegerich, R., 341, 512, 584 

Glanville, R.S., 579, 584 

Global error correction ( 全 局 错误 纠正 )，164~165 

Global name ( 全 局 名 )，653。 另 见 Nonlocal name 

Global optimization ( 全 局 优化 )，592，633 


Global register allocation ( 全 局 寄存 器 分 配 )， 
542~546 


GNF， 见 Greibach normal form 

Goldberg, R., 2 

Goto, of set of items (MAME ), 222, 224~225, 
231~232, 239 

Goto statement ( goto 语 句 ), 506 

Goto table ( goto% ), 216 

Graham, R.M., 277, 462 

Graham, S.L., 278, 583~584, 720 

Graph (图 ), Dependency graph, Directed acyclic 
graph, Flow graph, Interval graph, Reducible flow 
graph, Register-interference graph, 
Transition graph, Tree, Type graph 

Graph coloring ( 图 染色 ), 545~546 

Grau, A. A., 512 

Greibach normal form ( Greibach 范 式 )，272 

Grep, 158 


Search, 


H 


Haibt, L.M., 2 
Haley, C.B., 278 


516 





Halstead, M. H., 511, 727 

Handle ( #4), 196~198, 200, 205~206, 210, 
225~226 

Handle pruning ( 句柄 裁 前 ), 197~198 

Hanson, D. R., 512 

Harrison, M. A., 278 

Harrison, M.C., 158 

Harrison, W.H., 583, 718, 722 

Harry, E., 341 

Hash function ( 散 列 函数 )，434~438 

Hash table ( 散 列表 )，498 

Hashing ( 散 列 )，292~293，433~440，459~460 

Hashpjw，435~437 

Head (X ), 604 

Header (EWA), 603, 611, 664 

Heap (HE), 397, 735 

Heap allocation ( 堆 式 存储 分 配 )，401~402，410~411， 
440~446 

Hecht, M.S., 718~721 

Heinen, R., 719 

Held, G., 16 

Helsinki Language Processor ( Helsinki 语 言 处 理 器 )， 见 
HLP 

Henderson, P.B., 720 

Hennessy, J. L., 583, 721 

Henry, R. R., 583~584 

Herrick, H.L., 2 

Heuft, J., 158 

Hext, J. B., 387 

Hierarchical analysis ( 层次 分 析 )，5。 另 见 Parsing 

Hill, U., 512 

Hindley, R., 387 

HLP, 278, 341 

Hoare, C. A. R., 82, 387 

Hobbs, S. O., 489, 511, 543, 583~584, 718~719, 
740 

Hoffman, C.M., 584 

Hole in scope(〈 作 用 域 中 的 洞 )，412 

Hollerith string ( Hollerith FF ), 98 

Hopcroft, J. E., 142, 157, 277, 292, 388, 392, 
444~445, 462, 584, 587 

Hope, 385 

Hopkins, M.E., 546, 583, 719 

Horning, J.J., 82, 163, 277~278 

Horspool, R.N.S., 158 

Horwitz, L. P., 583 

Huet, G., 584 

Huffman, D. A., 157 

Hughes, R. A., 2 

Hunt, J. W., 158 

Huskey, H. D., 511, 727 

Hutt, B., 341 


IBM-7090, 584 

IBM-370, 517, 569, 584, 737, 740 

Ichbiah, J. D., 277 

Idempotence ( FETE), 96, 684 

Identifier ( 标识 符 )，56，86~87，179 

Identity function〈 恒 等 函数 )，683~684 

If statement (if 语句 ), 112~113, 491~493, 504~505 

Ikeda, K., 583 

Immediate dominator ( 直接 支配 节点 )，602 

Immediate left recursion ( 直接 左 递归 )，176 

Implicit allocation ( 隐 式 存储 分 配 )，440，444~446 

Implicit type conversion〈 隐 式 类 型 转换 )，359 

Important state ( 重要 状态 )，134 

Indexed addressing ( 变 址 寻 址 ), 519, 540 

Indirect addressing ( 间接 寻 址 )，519~520 

Indirect triples ( 间接 三 元 式 )，472~473 

Indirection ( 间 址 ), 472 

Induction variable ( 归纳 变量 )，596~598，643~648，709， 
721，739 

Infix expression ( 中 级 表达 式 )，33 

Ingalls, D. H. H., 387 

Ingerman, P. Z., 82 

Inherited attribute ( ARIETE), 34, 280, 283, 299, 
308~316，324~325，340。 另 见 Attribute 

Initial node ( 初始 节点 )，532 

Initial state ( 初始 状态 )， 见 State 

In-line expansion ( AKT Æ )，428~429。 另 见 Macro 

Inner loop ( ASEH ), 534, 605 

Input symbol ( 输入 符号 )，114 

Instance, of a polymorphic type( 多 态 类 型 的 实例 )，370 

Instruction selection ( 指令 选择 )，516~517 

Intermediate code ( 中 间 代 码 ), 12~14, 463~512, 514, 
589, 704, 5 Abstract machine, Postfix expression, 
Quadruple, Three-address code, Tree 

Interpreter ( 解释 器 )，3~4 

Interprocedural data flow analysis ( 过 程 间 数据 流 分 析 )， 
653~660 

Interval ( 区 间 ), 664~667 

Interval analysis ( 区间 分 析 ), 624, 660, 667, 720. 4 
见 T,-Tz analysis 

Interval depth (区 间 深 度 )，672 

Interval graph ( KEJE ), 666 

Interval partition ( 区 间 划 分 ), 665~666 

Irons, E.T., 82, 278, 340 

Ishihata, K., 722 

Item (mA ), W Kernel item, LR(1) item, LR(0) item 

Iterative data-flow analysis ( 迭代 数据 流 分 析 )，624~633 ， 
672~673, 690~694 

Iverson, K., 387 


Jacobi, Ch., 82, 511, 734 

Janas, J.M., 387 

Jarvis, J.F., 83, 158 

Jazayeri, M., 341~342 

Jensen K., 82, 511, 734, 745 

Johnson, D.S., 584 

Johnson, S.C., 4, 157~158, 257, 278, 340, 354~355, 
383, 462, S11, 566, 572, 584, 731, 735~737 

Johnson, W.L., 157 

Johnsson, R. K., 489, 543, 583, 718~719, 740 

Joliat, M., 278 

Jones, N. D., 341, 387, 718, 720 

Jourdan, M., 342 

Joy, W.N., 278 


Kaiserwerth, M., 158 

Kam, J.B., 720 

Kaplan, M.A., 387, 721 

Karp, R.M., 388, 583 

Kasami, T., 160, 277, 720 

Kastens, U., 341~342 

Kasyanov, V.N., 720 

Katayama, T., 342 

Keizer, E. G., 511 

Kennedy, K., 341~342, 583, 720~721 

Keohane, J., 720 

Kernel item ( OA), 223, 242 

Kernighan, B. W., 9, 23, 82, 158, 252, 462, 723, 
730, 733, 750 

Keyword ( 关键 字 ), 56, 86-87, 430 

Kieburtz, R.B., 278 

Kildall, G. A., 634, 680~681, 720 

Kill (E44), 608, 612-614, 627, 636 

Kiyono, T., 583 

Kleene closure ( 324K), Closure 

Kleene, S. C., 157 

KMP algorithm ( KMP 算 法 )，152 

Knuth, D. E., 8, 23~24, 82, 157~158, 277, 340, 
388, 444, 462, 583~584, 672~673, 721, 732 

Knuth-Morris-Pratt algorithm ( Knuth-Morris-Pratt 算 法 ), 
158, 34 ALKMP algorithm 

Kolsky, H.G., 718, 737 

Komlos, J., 158 

Korenjak, A. J., 277~278 

Kosaraju, S.R., 720 

Koskimies, K., 341 

Koster, C. H. A., 341 

Kou, L., 720 


517 


Kreps, P., 16 
Kristensen, B. B., 278 
Kron, H., 584 
Kruskal, J. B., 158 


L 


Label ( #73), 66~67, 467, 506, 515 

LaLonde, W. R., 278 

LALR collection of sets of items (LALR 项 目 集 族 )，238 

LALR grammar ( LALR 文 法 )，239 

LALR parsing (LALR 语 法 分 析 )， 见 Lookahead LR 
parsing 

LALR parsing table (LALR 语 法 分 析 表 ), 236~244 

Lamb, D. A., 584 

Lambda calculus (入 演算 )，387 

Lampson, B. W., 462 

Landin, P. J., 462 

Langmaack, H., 512 

Language ( iÙ ), 28, 92, 115, 168, 203 

Lassagne, T., 584 

Lastpos, 135, 137~140 

Lattice (#48 ), 387 

L-attributed definition (LHE X ), 280, 296~318, 
341 

Lazy state construction ( 情 性 状态 构造 )，128，158 

Leader ( 人 口语 名 ), 529 

Leaf (叶子 )，29 

Lecarme, O., 727 

Ledgard, H.F., 388 

Left associativity (22 ), 30~31, 207, 263 

Left factoring (RAW F ), 178~179 

Left leaf ( 左 叶子 )，561 

Left recursion ( 左 递归 ), 47~50, 71~72, 176~178, 182, 
191~192, 302~305 

Leftmost derivation ( ACHES ), 169 

Left-sentential form ( 左 句 型 )，169 

Leinius R. P., 278 

Lengauer, T., 721 

Lesk, M. E., 157, 731 

Leverett, B. W., 511, 583~584 

Levy, J. P., 278 

Levy, J.-J., 584 

Lewi, J., 342, 512 

Lewis, H. R., 720 

Lewis, P, M., 277, 341 

Lex, 83, 105~113, 128~129, 148~149, 158, 730 

Lexeme (IÆ ), 12, 54, 56, 61, 85, 430~431 

Lexical analysis (iE 487), 5, 12, 26, 54-60, 71, 
83~158, 160, 172, 261, 264, 738 

Lexical environment ( 词法 环境 ), 457~458 

Lexical error ( 词法 错误 )，88，161 


518 


Lexical scope ( 词法 作用 域 )，411~422 

Lexical value (词法 值 )，12, 111, 281 

Library (FE), 4~5, 54 

Lifetime, of a temporary ( 临时 变量 的 生存 期 )，480 

Lifetime, of an activation ( 活动 记录 的 生存 期 )，391， 
410 

Lifetime, of an attribute ( 属性 的 生存 期 )，320~322， 
324~329 

Limit flow graph ( 限制 流 图 ), 666, 668 

Linear analysis 《线性 分 析 )，4。 另 见 Lexical analysis 

LINGUIST, 341~342 

Link editor ( 连接 编辑 器 )，19，402 

Linked list ( 链表 ), 432~433, 439 

Lint (lint 命 令 )，347 

Lisp, 411, 440, 442, 46i, 694, 725 

Literal string ( 文字 串 )，86 

Live variable ( 活 牙 变 量 )，534~535 543, 551, 595, 
599~600, 631~632, 642, 653 

LL grammar ( LLX ), 160, 162, 191~192, 221, 270, 
273, 277, 307~308 

Loader ( 装配 器 ), 19 

Local name ( 局 部 名 字 ), 394~395, 398~400, 411 

Local optimization ( 局 部 优化 )，$92 ，633 

Loewner, P.G., 718 

Logical error ( 逻辑 错误 )，161 

Longest common subsequence ( 最 长 公共 子 序列 )，155 

Lookahead ( 向 前 看 ， 超 前 扫描 )，90，111~113 134, 
215, 230 

Lookahead LR parsing ( 向 前 看 LR 语 法 分 析 )，216， 
236~244，254，278。 另 见 Yacc 

Lookahead symbol ( 超前 扫描 符 )，41 

Loop (循环 )，533~534，544，602~608，616-618，660 

Loop header ( 循环 头 ， 循 环 首 节点 )， 见 Header 

Loop optimization ( 循环 优化 )，596。 另 见 Code motion, 
Induction variable, Loop unrolling, Reduction in 
strength 

Loop-invariant computation ( 循环 不 变 计算 )， 见 Code 
motion 

Lorho, B., 341~342 

Low, J., 721 

Lowry, E. S., 542, 583, 718, 721, 727, 737 

LR grammar (LR3C3#), 160, 162, 201~202, 220~221, 
247, 273, 278, 308 

LR parsing (LR 语 法 分 析 ), 215~266, 341, 578~579 

LR(1) grammar ( LR(1) 文 法 )，235 

LR(1) item (LR(1) 项 目 )，230~231 

LR(0) item (LR(0) 项 目 )，221 

Lucas, P., 82, 277 

Lunde, A., 583 

Lunnel, H., 583 

L-value ( Ze/H ), 64-65, 229; 395, 424~429, 547 


M 


Machine code( 机 器 代码 ), 4~5，18，557，569 

Machine status《〈 机 器 状态 )，398 406~408 

MacLaren, M.D., 719 

MacQueen, D.B., 385, 388 

Macro ( Æ ), 16-17, 84, 429, 456 

Madsen, C. M., 341 

Madsen, O. L., 278, 341~342 

Make, 729~731 

Manifest constant ( 符号 常量 )，107 

Marill, T., 342, 583 

Marker nonterminal ( 标记 非 终结 符 )，309，311~315， 
341 

Markstein, J., 719, 721 

Markstein, P. W., 546, 583 

Martelli, A., 388 

Mauney, J., 278 

Maximal munch ( 最 大 贪 吃 )，578 

Maxwell, W.L., 278 

Mayoh, B.H., 340 

McArthur, R., 511, 727 

McCarthy, J., 82, 461, 725 

McClure, R. M., 277 

McCracken, N.J., 388 

McCulloch, W. S., 157 

Mcllroy, M. D., 158 

McKeeman, W.M., 82, 277, 462, 584 

McKusick, M. K., 584 

McLelian, H.R., 583 

McNaughton, R., 157 

Medlock, C. W., 542, 583, 718, 721, 727, 737 

Meertens, L., 387 

Meet operator ( 与 操作 符 ), 681 

Meet-over-paths solution ( RAR ), 689-690, 692, 
694 

Memory map ( 内 存 映像 )，446 

Memory organization ( A & #4 8 ), 
organization 

META, 277 

Metcalf, M., 718 

Meyers, R., 387 

Miller, R. E., 583, 720 

Milner, R., 365, 387 

Minimum-distance error correction ( 最 小 距离 错误 校正 ), 
88 

Minker, J., 512 

Minker, R.G., 512 

Mitchell, J. C., 387 


Mixed strategy precedence ( 混合 策略 优先 法 )，277 
Mixed-mode expression ( 混合 模式 表达 式 )，495~497 


见 Storage 


壳 绚 


ML, 365, 373~374, 387 

Mock, O., 82, S11, 725 

Modula, 607, 719, 742~743 

Moncke, U., 341 

Monotone framework ( 单调 框架 )，686~688，692 
Monotonicity ( 单调 性 )，720 

Montanari, U., 388 

Moore, E.F., 157, 721 

Moore, J.S., 158 

Morel, E., 720 

Morris, D., 340 

Morris, J, H., 158, 387~388 

Morris, R., 462 

Morse, S.P., 277 

Moses, J., 462 

Most closely nested rule ( VERE AM ), 412, 415 


Most general unifier ( 最 一 般 的 合 一 代 换 )， 370~371, 
376~377 


Moulton, P. G., 278 

Muchnick, S. S., 387, 718, 720 
MUG, 341 

Muller, M.E., 278 


N 


Nageli, H. H., 82, 511, 734 

Nakata, I., 583 

Name ( 名字 ), 389 

Name equivalence, of type expressions ( 类 型 表达 式 的 名 
字 等 价 )，356~357 

Name-related check ( 与 名 字 有 关 的 检查 )，343~344 

Natural loop ( 自然 循环 )，603~604 

Naur, P., 82, 277, 386, 461 

NEATS, 342 

Neliac, 511, 727 

Nelson, R. A., 2 

Nested procedures ( EEA), 415~422, 474~477 

Nesting depth ( KERE ), 416 


Nesting, of activations (7&2yHU#2E ), 391. ASL Block 
structure 


Newcomer, J.M., 511, 584 

Newey, M.C., 511~512 

NFA, A Nondeterministic finite automaton 

Nievergelt, J., 583 

Node splitting ( 节点 分 裂 )，666~668，679~680 

Nondeterministic finite automaton( 不 确定 的 有 穷 自动 机 )， 
113~114, 117~128, 130~132, 136 

Nondeterministic transition diagram ( 不 确定 的 状态 转换 
图 )，184 

Nonlocal name ( 非 局 部 名 字 ), 395, 411~424, 528 

Nonreducible flow graph ( 不 可 约 流 图 )，607，679~680 

Nonregular set ( 非 正 规 集 )，180~181。 另 见 Regular set 


519 


Nonterminal ( ERF), 26, 166~167, 204~205. Fi 
见 Marker nonterminal 

Nori, K. V., 82, 511, 734 

Nullable expression ( 可 空 表达 式 )，135，137~140 

Nutt，R.，2 


o 


Object (H2), 389, 395 

Object code ( 目标 代码 )，704 

Object language ( 目标 语言 )， 见 Target language 

O’Donnell, M.J., 584 

Offset ( 4%), 397, 400, 450, 473, 524 

Ogden, W.F., 342 

Olsztyn, J., 82, 511, 725 

One-pass compiler ( 一 遍 编 译 器 ), UL Single-pass 
translation 

Operator grammar ( 算 符 文法 )，203~204 

Operator identification ( 操作 符 标识 )、361。 另 见 Over- 
loading 

Operator precedence〈 算 符 优先 )，31 

Operator precedence grammar ( 算 符 优先 文法 )，271~272 

Operator precedence parsing ( 算 符 优先 语法 分 析 )， 
203~215, 277, 736 

Operator precedence relations ( 算 符 优先 关系 )，203~204 

Optimizing compiler (优化 编译 器 )， 见 Code optimization 

Osterweil, L.J., 722 


Overloading (ÆR ), 330, 344, 361~364, 384~385, 
387 


P 


Packed data ( 压缩 数据 ), 399 

Padding ( 填充 空白 区 )，399 

Pager, D., 278 

Pai, A.B., 278 

Paige, R., 721 

Pair, C., 342 

Palm, R. C., 721 

Panic mode ( RAJA ), 88, 164, 192~193, 254 

Panini, 82 

Parameter passing ( BRE), 414~415, 424~429, 
653~654 

Parentheses ( AJA ), 95, 98, 173~174 

Park, J.C. H., 278 

Parse tree (分 析 树 ), 6~7, 28~30, 40-43, 49, 160, 
169~171, 196, 279, 296, 3 5lSyntax tree 

Parser generator ( 语法 分 析 器 生成 器 )，22~23，730~731。 
A W Yacc 

Parsing ( 语法 分 析 ), 6-7, 12. 30, 40~48, 57, 71~72, 
34~85 ，159~278。 另 见 Bottom-up parsing, Bounded 
context parsing, Top-down parsing 

Partial order (4a) ), 333~335 


520 


Partition ( 划分 ), 142 

Pascal, 52, 85, 94, 96~97, 162~163, 347, 349, 
356~357, 365~366, 396~398, 411, 424~425, 427, 
440~442, 473, 481, 510~512, 583, 719, 727~729, 
734~735 

Pass (i ), 20~22 

Passing environment ( 传递 环境 )，457~458 

Paterson, M.S., 388 

Pattern matching ( 模式 匹配 )，85 129~131, 577~578, 
584 

PCC, 519, 572, 584, 735~737 

P-code ( PRI ), 734, 742 

Peephole optimization ( SFLRAME ), 554~558, 584, 587 

Pelegri-Llopart, E., 584 

Pennello, T., 278, 387 

Period, of a string( 字符 串 的 周期 )，152 

Persch, G., 387 

Peterson, T. G., 278 

Peterson, W. W., 462, 720 

Peyrolle-Thomas, M. -C., 727 

Phase ( 阶段 )，10。 另 见 Code generation, Code 
optimization, Error handling, Intermediate code, 
Lexical analysis, 


Parsing, Semantic analysis, 


Symbol table 

Phrase-level error recovery ( 短语 级 错误 恢复 )，164~165， 
194~195, 255 

Pic, 456 

Pig Latin ( 倒 读 隐语 ), 79~80 

Pike, R., 82, 462, 730, 750 

Pitts, W., 157 

Plankalkul, 386 

PL/C, 164, 514 

PL/I, 21, 80, 87, 162~163, 383, 387, 488, 510, 
512, 719 

Plotkin, G., 388 

Point (4), 609 

Pointer (#84t), 349, 409, 467~468, 540~541, 553, 
582, 648~653 

Pointer type ( 指针 类 型 )，346 

Pollack, B.W., 24 

Pollock, L. L., 722 

Polymorphic function ( #25 eX), 344, 364~376 

Polymorphic type ( 多 态 类 型 )，368 

Poole, P.C., 5H 

Pop (弹出 ), 65 

Portability ( 可 移植 性 )，85，724 

Portable C compiler ( 可 移植 的 C 编 译 器 )， 见 PCC 

Porter, J.H., 157 

Positive closure ( 正 闭 包 )，97。 另 见 Closure 

Post, E., 82 

Postfix expression ( 后 缀 表达 式 ), 25, 33~34, 464, 466, 


470, 509 

Postorder traversal ( 后 根 遍 历 ), 561~562 

Powell, M. L., 719, 721, 742 

Pozefsky, D., 342 

Pratt, T. W., 462 

Pratt, V.R., 158, 277 

Precedence (优先 ),31~32, 95, 207, 247~249, 
263~264。 另 见 Operator precedence grammar 

Precedence function ( 优先 函数 )，208~210 

Precedence relations ( 优先 关系 )， 见 Operator precedence 
relations 

Predecessor ( 前 驱 ), 532 

Predictive parsing ( 预测 语法 分 析 法 ), 44~48, 182~188, 
192~195, 215, 302~308 

Predictive translator ( 预测 翻译 器 )，306~308 

Prefix (前缀 ), 93 

Prefix expression ( ARRIE ), 509 

Preheader ( 前 置 首 节点 )，605 

Preprocessor ( 预 处 理 器 )，4~5，16 

Pretty printer ( 智能 打印 机 )，3 

Procedure ( 过程 )，389 

Procedure body (过程 体 )，390 

Procedure call ( 过 程 调用 )，202，396，398，404~411， 
467, 506~508, 522~527, 553, 649, BA 
Interprocedural data flow analysis 

Procedure definition ( 过 程 定义 )，390 

Procedure parameter ( 过 程 参数 )，414~415，418~419 

Product ( 乘积 )， 见 Cartesian product 

Production ( 产生 式 )，26，166 

Profiler ( 描述 器 ), 587 

Programming language ( 程序 设计 语言 )， 见 Ada，Algol， 
APL, BCPL, Bliss, C, Cobol, CPL, ELI, Fortran, 
Lisp, ML, Modula, Neliac, Pascal, PL/I, SETL, 
SIMPL, Smalltalk, Snobol 

Programming project (程序 设计 项 目 )，745~751 

Project, programming ( 项目 ， 程 序 设计 ), 745~751 


Propagation, of lookahead ( 搜索 符 的 传播 )，242 
Prosser, R. T., 721 


Purdom, P. W., 341, 721 
Push ( ÆA ), 65 


Q 


Quadruples《 四 元 式 )，470，472~473 
Query interpreter ( 查询 解释 器 )，4 
Queue ( 队列 )，507~508 

Quicksort ( 快速 分 类 ), 390, 588 


R 


Rabin, M.O., 157 
Radin, G., 387 
Raiha, K. -J., 278, 341~342 


# 3l 


Ramanathan, J., 341 

Randell, B., 24, 82, 462, 512 

Ratfor, 723 

Reaching definition ( 到 达 定 义 )，610~621，624~627， 
652~653, 674~680, 684 

Recognizer ( 识别 器 )，113 

Record type ( 记录 类 型 )，346，359，477~478 

Recursion ( 递归 ), 6~7, 165, 316~318, 329~332, 391, 
401。 另 见 Left recursion, Right recursion, Tail 
recursion 

Recursive-descent parsing ( 递归 下 降 语法 分 析 法 )，44， 
82, 181~182, 736, 740 

Reduce/reduce conflict( 归 约 - 归 约 冲突 ), 201, 237, 
262, 578 

Reducible flow graph ( 可 约 流 图 ), 606~608, 664, 666, 
668, 714-715, 740 

Reduction ( J9% ), 195, 199, 211~213, 216, 255 

Reduction in strength ( 强度 削弱 ), 557, 596~598, 601, 
644, 646 

Redundant code ( FURS), 554 

Redziejowski, R. R., 583 

Reference (引用 )， 见 Use 

Reference count (引用 计数 )，445 

Region( 区域 )，611~612，669~670，673~679， 

Register ( 寄存 器 )，519~521 

Register allocation (寄存 器 分 配 )，517，542~546， 
562~565, 739~743 

Register assignment (寄存 器 指 放 ), 15, 517, 537~540, 
544~545 

Register descriptor ( 寄存 器 描述 符 )，537 

Register pair (寄存 器 对 ), 517, 566 

Register-interference graph ( 寄存 器 冲突 图 )，546 

Regression test ( 回归 测试 )，731 

Regular definition ( 正规 定义 )，96，107 

Regular expression ( 正规 表达 式 )，83，94~98 107, 
113, 121~125, 129, 135~141, 148, 172~173, 
268~269 

Regular set ( 正规 集 )，98 

Rehostability (可 变换 宿主 机 能 力 )，724 

Reif, J.H., 720 

Reiner, A.H., 511, 584 

Reiss, S.P., 462 

Relative address ( 相对 地 址 )， 见 Offset 

Relocatable machine code ( 可 重 定位 机 器 代码 )，5，18， 
515 

Relocation bit ( 重 定位 标志 位 )，19 

Renaming ( 重 命名 )，531 

Renvoise, C., 720 

Reps, T. W., 341 

Reserved word ( (RIB), 56, 87 

Retargetability ( 可 重 置 目 标 能 力 )，724 


521 


Retargeting (HBAs), 463 

Retention, of locals ( 局 部 名 字 的 保持 )，401~403，410 
Retreating edge (后 退 边 )，663 

Return address (返回 地 址 )，407，522~527 
Return node (REH A ), 654, 

Return sequence (返回 序列 ), 405~408 

Return value (返回 值 )，399 ，406~407 
Reynolds, J. C., 388 

Rhodes, S. P., 278 

Richards, M., 511, 584 

Right associativity (4444 ), 30~31, 207, 263 
Right leaf ( 右 叶 子 )，561 

Right recursion ( 右 递归 )，48 

Rightmost derivation ( RAPES ), 169, 195~197 
Right-sentential form ( 右 句 型 )，169，196 
Ripken, K., 387, 584 

Ripley, G. D., 162 

Ritchie, D.M., 354, 462, 511, 735~737 
Robinson, J. A., 388 

Rogoway, H. P, 387 

Rohl, J. S., 462 

Rohrich, J., 278 


Root (4#), 29 
Rosen, B. K., 719~720 
Rosen, S., 24 


Rosenkrantz, D. J., 277, 341 

Rosler, L., 723 

Ross, D.T., 157 

Rounds, W.C., 342 

Rovner, P., 721 

Row-major form ( 行 优先 形式 )，481~482 

Run-time support ( 运行 时 支撑 )，389。 另 见 Heap 
allocation, Stack allocation 

Russell, L.J., 24, 82, 462, 512 

Russell, S.R., 725 

Ruzzo, W.L., 278 

R-value ( 47{H), 64-65, 229, 395, 424~429, 547 

Ryder, B. G., 721~722 


Saal, H.J., 387 

Saarinen, M., 278, 341~342 

Safe approximation ( 安全 近似 )， 见 Conservative 
approximation 

Samelson, K., 340 

Sankoff, D., 158 

Sannella, D.T., 385 

Sarjakoski, M., 278, 341 

S-attributed definition ( S 属 性 定义 )，281，293~296 

Save statement ( SAVE 语 句 )，402~403 

Sayre, D., 2 


522 


Scanner ( 扫描 器 )，84 

Scanner generator ( 扫描 器 生成 器 )，23。 另 见 Lex 

Scanning ( 扫描 )， 见 Lexical analysis 

Scarborough, R.G., 718, 737 

Schaefer, M., 718 

Schaffer, J.B., 719 

Schatz, B. R., 511, 584 

Schonberg, E., 721 

Schorre, D. V., 277 

Schwartz, J. T., 387, 583, 718~721 

Scope ( PEIR ), 394, 411, 438~440, 459, 474~479 

Scott, D., 157 

Search, of a graph ( 图 的 搜索 )，119。 另 见 Depth-first 
Search 

Sedgewick, R., 588 

Semantic action (语义 动作 ), 37~38, 260 

Semantic analysis (语义 分 析 )，5，8 

Semantic error (语义 错误 )，161，348 

Semantic rule (语义 规则 )，33 ，279~287 

Semantics 语义 学 )，25 

Sentence ( 句子 )，92，168 

Sentential form ( 名 型 )，168 

Sentinel ( 哨兵 )，91 

Sethi, R., 342, 388, 462, 566, 583~584 

SETL, 387, 694~695, 719 

Shallow access ( 浅 访问 ), 423 

Shared node (共享 节点 ), 566~568 

Sharir, M., 719, 721 

Shell, 149 

Sheridan, P. B., 2, 277, 386 

Shift ( 移 进 )，199，216 

Shift/reduce conflict ( 移 进 - 归 约 冲突 )，201，213~215， 
237，263~264，578 

Shift-reduce parsing ( 移 进 - 归 约 分 析 )，198~203，206。 
另 见 LR parsing ，Operator precedence parsing 

Shimasaki, M., 583 

Short-circuit code ( 短路 代码 )，490~491 

Shustek, L.J., 583 

Side effect (副作用 )，280 

Signature, of aDAG node (DAG 节 点 的 签名 )，292 

Silicon compiler ( 硅 编译 器 )，4 

SIMPL，719 

Simple LR parsing ( 简单 LR 语 法 分 析 )，215，221~230， 
254, 278 

Simple precedence ( 简单 优先 ), 277 

Simple syntax-directed translation ( 简单 语法 制导 翻译 )， 
39~40，298 

Single production (单产 生 式 )，248，270 

Single-pass translation ( 单 遍 翻 译 )，279，735 

Sippu, S., 278, 341 

Skeletal parse tree ( 分 析 树 架子 )，206 


SLR grammar ( SLR 文 法 )，228 

SLR parsing ( SLR 语 法 分 析 )， 匈 Simple LR parsing 

SLR parsing table ( SLR 语 法 分 析 表 )，227~230 

Sneeringer, W.J., 387 

Snobol, 411 

Soffa, M.L., 722 

Soisalon-Soininen, E., 277~278, 341 

Sound type system ( 完备 的 类 型 系统 )，348 

Source language ( 源 语言 )，! 

Spillman, T. Ç., 721 

Spontaneous generation, of lookahead ( 超前 搜索 符 的 自 
4), 241 

Stack ( HERR), 126, 186, 198, 217, 255, 275~276, 
290, 294~296, 310~315, 324~328, 393~394, 397, 
476~479, 562, 735. J Control stack 

Stack allocation ( 栈 式 存储 分 配 )，401，404~412，522， 
524~528 

Stack machine ( #ERRHL), 62~69, 464, 584 

Start state ( 开始 状态 )，100 

Start symbol ( 初始 符号 )，27，29，166，281 

State ( 状态 )，100，114，153，216，294 

State minimization ( 状态 最 小 化 )，141~144 

State (of storage) (( 存储 单元 的 ) 状态 )，395 

Statement ( 4J ), 26, 28, 32, 67, 352, AM 
Assignment statement, Case statement, Copy 
statement, Do statement, Equivalence statement, 
Goto statement, If statement, While statement 

Static allocation ( 静态 存储 分 配 )，401~403，522~524， 
527~528 : 

Static checking ( 静态 检查 )，3，343，347，722 

Static scope〔 静态 作用 域 )， 见 Lexical scope 

Staveren, H. van, 511, 584 

Stdio.h, 58 

Stearns, R. E., 277, 341 

Steel, T. B., 82, 511, 725 

Steele, G. L., 462 

Stem, H., 2 

Stevenson, J.W., 511, 584 

Stockhausen, P. F., 584 

Stonebraker, M., 16 

Storage ( 存储 )，395 

Storage allocation ( 存储 分 配 )，401~411，432，440~446 

Storage organization ( 存储 组 织 )，396~400 

String (字符 串 )，92，167 

String table (字符 串 表 )，431 

Strong, J., 82, 511, 725 

Strongly noncircular syntax-directed definition ( 强 无 环 语 
法 制导 定义 )，332~336，340 

Strongly typed language ( 强 类 型 语言 )，348 

Stroustrup, B., 437 

Structural equivalence, of type expressions ( 类 型 表达 式 


x jl 


的 结构 等 价 ), 353~355, 376, 380 

Structure editor ( 结构 编辑 器 )，3 

Subsequence ( 子 序列 )，93。 另 见 Longest common 
Subsequence 

Subset construction ( 子 集 构造 )，117~121，134 

Substitution ( 代 换 ), 370~371, 376~379 

Substring (#4), 93 

Successor (后继 )，532 

Suffix (Ja), 93 

Sussman, G. J., 462 

Suzuki, N., 387, 722 

Switch statement ( switchi#i#] )， 见 Case statement 

Symbol table (符号 表 ), 7, 11, 60-62; 84, 160, 
429~440, 470, 473, 475~480, 703 

Symbolic debugging ( 符 导 调试 )，703~711 

Symbolic dump ( 符号 转 储 )，536 

Symbolic register ( 符号 寄存 器 )，545 

Synchronizing token ( 同步 记号 )，192~194 

Syntax (语法 )，25。 另 见 Context-free grammar 

Syntax analysis ( 语法 分 析 )， 见 Parsing 

Syntax error (语法 错误 )，161~165，192~195，199， 
206, 210~215, 218, 254~257, 264~266, 275, 278 

Syntax tree ( HW), 2, 7, 49, 287~290, 464~466, 
471. A W Abstract syntax tree, Concrete syntax tree, 
Parse tree 

Syntax-directed definition ( 语法 制导 定义 )，33， 
279~287。 另 见 Annotated parse tree, Syntax-directed 
translation 

Syntax-directed translation ( 语法 制导 翻译 )，8 ，25， 
33~40，46~54，279~342，464~465，468~470 

Syntax-directed translation engine (语法 制导 翻译 引擎 )， 
23。 另 见 GAG，HLP，LINGUIST，MUG，NEATS 

Synthesized attribute (综合 属性 )，34，280~282， 
298~299，316，325。 另 见 Attribute 

Szemeredi, E., 158 

Szymanski, T.G., 158, 584 


T 


Table compression ( 表 压 缩 )，144~146，151，244~247 

Tabie-driven parsing ( #25kah4 OT ), 186, 190~192, 
216~220, J WLCanonical LR parsing, LALR parsing, 
Operator precedence parsing, SLR parsing 

Tai, K.C., 278 

Tail (FÆ ), 604 

Tail recursion 〈 尾 递归 ), 52~53 

Tanenbaum, A.S., 511, 584 

Tantzen, R.G., 82 

Target language ( 目标 语言 )，1 

Target machine ( 目标 机 器 ), 724 

Tarhio, J., 341 

Tarjan, R. E., 158, 388, 462, 720~721 


523 


T-diagram ( TÆKI ), 725~728 


Temporary (临时 变量 )，398，470，480~481，535，635， 
639 


Tennenbaum, A.M., 387, 720~721 


Tennent, R. D., 462 


Terminal ( 终结 符 )，26，165~167，281 

Testing ( 测试 )，731~732 

TEX，8~9，16~17，82，731 

Text editor ( 文本 编辑 器 )，158 

Text formatter (文本 格式 器 )，4，8~10 

Thompson, K., 122, 158, 601, 735 

Three-address code ( 三 地 址 码 ), 13~14, 466~472 

Thunk ( 形 实 转换 程序 )，429 

Tienari, M., 278, 341 

Tjiang, S., 584 

TMG, 277 

Token (记号 ), 4~5, 12, 26-27, 56, 84-86, 98, 165, 
179 

Tokuda, T., 278 

Tokura, N., 720 

Tı-Tz analysis (T)-T2 4} BT ), 667~668, 673~680 

Tools (TH), 724. 4 WAutomatic code generator, 
Compiler-compiler, Data-flow engine, Parser 
generator, Scanner generator, Syntax-directed 
translation engine 

Top element( 栈 项 元 素 ), 684 

Top-down parsing ( 自 顶 向 下 语法 分 析 ), 41~48, 176, 
181~195，302，341，463。 另 见 Predictive parsing, 
Recursive-descent parsing 

Topological sort ( 拓扑 排序 )，285，551 

Trabb Pardo, L., 24 

Transfer function ( 转移 函数 )，674，681，689 

Transition diagram ( 状态 转换 图 )，99~105，114， 
183~-185，226。 另 见 Finite automaton 

Transition function ( 转换 函数 )，114，153~154 

Transition graph (转换 图 )，114 

Transition table ( .转换 表 )，114~115 

Translation rule ( 翻译 规则 )，108 

Translation scheme ( 翻译 模式 )，37~40，297~301 

Translator-writing system ( 翻译 器 编写 系统 )， 见 
Compiler-compiler 

Traversal (H ), 36, 316~319, 3 WDepth-first 
traversal 

Tree (#}), 2, 347, 449, UL Activation tree, Depth- 
first spanning tree, Dominator tree, Syntax tree 

Tree rewriting (MBE ), 572~580, 584 

Tree-translation scheme ( 树 翻 译 模式 )，574~576 

Trevillyan, L.H., 718 

Trickey, H. W., 4 

Trie, 151, 153~154 

Triples ( 三 元 式 )，470~472 


524 


Tritter, A., 82, SIL, 725 

TROFF, 726, 733~734 

Two-pass assembler ( 两 遍 汇 编程 序 )，18 

Type (288) ), 343~388 

Type checking (HARA ), 8, 343~344, 347, 514 

Type constructor ( 类 型 构造 符 )，345 

Type conversion ( 类 型 转换 )，359~360，485~487。 另 见 
Coercion 

Type estimation ( 类 型 估计 )，694~702 “ 

Type expression ( 类 型 表达 式 )，345~347 

Type graph (2849), 347, 353, 357~359 

Type inference ( SAU HEW ), 366~367, 373~376, 694 

Type name (WA ), 345~346, 356 

Type system ( AYR HE), 347~348, 697~698 

Type variable ( 类 型 变量 )，366 


U 


Ud-chain (ud 链 ), 621, 642~643 

Ukkonen, E., 277 

Ullman, J.D., 4, 142, 157, 181, 204, 277~278, 292, 
387, 392, 444~445, 462, 566, 583~584, 587~588, 
720~721 

Unambiguous definition ( 明确 定义 )，610 

Unary operator ( 一 元 运算 符 )，208 

UNCOL 82, 511 ; 

Unification (— ), 370~372, 376~380, 388 

Union ( 3f ), 93~96, 122~123, 378~379 

Uniqueness check ( 惟一 性 检查 )，343 

Unit production ( 单位 产生 式 )， 见 Single production 

Universal quantifier ( 全 称 量词 )，367~368 

UNIX, 149, 158, 257, 584, 725, 735 

Unreachable code ( 不 可 到 达 代 码 )， 见 Dead code 

Upwards exposed use ( 向 上 暴露 的 引用 )，633 

Usage count (引用 计数 )，542~544，583 

Use (引用 ), 529, 534~535, 632 

Use-definition chain ( 引用 -定义 链 )， 见 Ud-chain 

Useless symbol ( 无 用 符号 )，270 


v 


Valid item ( 有 效 项 目 )，225~226，231 

Value number ( 值 编号 )，292~293，635 

Value-result linkage ( 传 值 结果 连接 )， 见 Copy-restore- 
linkage 

Van Staveren, ， 见 Staveren H. van 

Vanbegin, M., 342, 512 

Variable ( 变量 )， 见 Identifier，Type variable 

Variable-length data ( 变 长 数据 )，406，408~409，413 

Very busy expression ( 非常 忙 表达 式 )，713~714 

Viable prefix ( 74872), 201, 217, 224~225, 230~231 

Void type ( ZH ), 345, 352 

Vyssotsky, V., 719 


Ww 


Wagner, R. A., 158 

Waite, W. M., 511~512, 583~584, 720, 731 
Walter, K.G., 341 i 

Ward, P., 341 

Warren, S. K., 342 

Wasilew, S. G., 584 

WATFIV, 514 

Watt, D. A., 341 

Weak precedence ( 弱 优 先 )，277 

WEB, 732 

Weber, H., 277 

Wegbreit, B., 387, 720 

Wegman, M. N., 388, 720~721 

Wegner, P., 719 

Wegstein, J. H., 82, 157, S511, 725 

Weihl, W. E., 721 

Weinberger, P.J., 158, 435 

Weingart, S., 584 

Weinstock, C. B., 489, 543, 583, 718~719, 740 
Welsh, J., 387 

Wexelblat, R.L., 24, 82 

While statement ( whilei 4 ), 491~493, 504~505 
White space (5 AFF ), 54, 84~85, 99 

Wilcox, T. R., 164, 278 

Wilhelm, R., 341, 512 

Winograd, S., 583 

Winterstein, G., 387 

Wirth, N., 82, 277~278, 462, 512, 727, 734, 745 
Wong, E., 16 

Wood, D., 277 

Word (F), 92 

Wortman, D. B., 82, 277 

Wossner, H., 386 

Wulf, W. A., 489, 511, 543, 583~584, 718~719, 740 


Y 


Yacc, 257~266, 730, 736, 742 
Yamada, H., 157 

Yannakakis, M., 584 

Yao, A.C., 158 

Yellin, D., 342 

Yield ( 结果 )，29 

Younger, D.H., 160, 277 


Z 


Zadeck, F. K., 720 
Zelkowitz, M. V., 719 
Ziller, I., 2 
Zimmermann, E., 341 
Zuse, K., 386 


